پرش به محتوای اصلی

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

تولید تقویت‌شده با بازیابی (RAG) به این بستگی دارد که مولد تا چه حد می‌تواند شواهدی را که در چندین سند پراکنده شده‌اند، سنتز کند. مقاله ایزاکارد و گریو در EACL ۲۰۲۱ با عنوان «بهره‌گیری از بازیابی متن با مدل‌های مولد برای پرسش و پاسخ دامنه باز»، یک اصلاح معماری فریبنده و ساده ارائه می‌دهد — متون را به صورت مستقل رمزگذاری کنید، همه آن‌ها را در رمزگشا (decoder) ادغام کنید — که با اختلاف قابل توجهی از چارچوب RAG که در آن زمان غالب بود، بهتر عمل می‌کند. من اکنون در حال مطالعه آن هستم زیرا اصول طراحی آن مستقیماً با پرسش و پاسخ در دفتر کل (ledger) مطابقت دارد: قبل از تصمیم‌گیری در مورد نحوه بازیابی ورودی‌ها در ایجنت‌های Beancount، ارزش آن را دارد که بفهمیم کدام استراتژی ادغام واقعاً کارآمد است.

مقاله

2026-05-26-fusion-in-decoder-passage-retrieval-generative-qa

مدل RAG اصلی لوئیس و همکاران (arXiv:2005.11401) یک بازیاب متراکم را با یک مولد BART پیوند می‌دهد، اما مولد را مجبور می‌کند در هر لحظه فقط روی یک متن بازیابی شده شرطی شود و متون را یا در هر توالی (RAG-Sequence) یا در هر توکن (RAG-Token) حاشیه‌بندی (marginalize) می‌کند. ایزاکارد و گریو این موضوع را به عنوان محدودیت اصلی شناسایی کردند: مدلی که در هر لحظه فقط می‌تواند یک متن را ببیند، نمی‌تواند به راحتی شواهدی را که در اسناد مختلف پراکنده شده‌اند، مثلث‌بندی و تجمیع کند.

راهکار FiD (ادغام در رمزگشا) آن‌ها ظریف است. هر متن بازیابی شده با سؤال الحاق می‌شود، سپس توسط رمزگذار T5 به صورت مستقل رمزگذاری می‌شود. رمزگذار یک بار برای هر متن اجرا می‌شود — که کاملاً قابل موازی‌سازی است. سپس رمزگشا بیش‌توجهی متقاطع (cross-attention) را روی الحاق تمام نمایش‌های متنی به طور همزمان انجام می‌دهد. پیچیدگی رمزگذار به صورت خطی با تعداد متون مقیاس می‌پذیرد؛ و نکته حیاتی این است که رمزگشا می‌تواند در طول هر مرحله از تولید، به مرزهای متون مختلف توجه کند. این مقاله از T5-base و T5-large به عنوان ستون فقرات مولد استفاده می‌کند.

ایده‌های کلیدی

  • مدل FiD-large با ۱۰۰ متن بازیابی شده به ۵۱.۴٪ تطبیق دقیق (exact match) در Natural Questions و ۶۷.۶٪ در TriviaQA open دست می‌یابد، در حالی که این ارقام برای RAG-Sequence به ترتیب ۴۷.۵٪ و ۵۶.۱٪ است — سودی در حدود ۴ و ۱۱ امتیاز.
  • عملکرد در Natural Questions به طور یکنواخت با تعداد متون مقیاس می‌پذیرد: ۳۷.۳٪ با ۱ متن، ۴۸.۸٪ با ۱۰ متن، ۵۰.۸٪ با ۵۰ متن و ۵۱.۴٪ با ۱۰۰ متن. بازده نهایی کاهش می‌یابد اما هرگز معکوس نمی‌شود.
  • TriviaQA حدود ۶٪ و Natural Questions حدود ۳.۵٪ هنگام مقیاس‌بندی از ۱۰ به ۱۰۰ متن بهبود می‌یابند — شاهدی بر اینکه رمزگشا واقعاً در حال تجمیع داده‌هاست، نه فقط انتخاب برترین متن.
  • مرحله رمزگذاری برای موازی‌سازی ارزان است: هر جفت (سؤال، متن) به طور مستقل پردازش می‌شود، بنابراین زمان اجرا با سخت‌افزار مناسب به صورت زیر-خطی مقیاس می‌پذیرد.
  • مدل FiD-base با ۷۷۰ میلیون پارامتر از T5-11B در حالت کتاب-بسته (closed-book) پیشی می‌گیرد (۴۴.۱٪ در مقابل ۳۶.۶٪ در NQ)، که نشان می‌دهد بازیابی باعث می‌شود مدل‌های کوچک‌تر بسیار فراتر از وزن خود عمل کنند.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

نتیجه اصلی قدرتمند است و به طور گسترده بازتولید شده است. بینش معماری — رمزگذاری مستقل، رمزگشایی مشترک — واقعاً تمیز است: این روش از انفجار توجه‌به‌خود (self-attention) درجه دوم که ناشی از الحاق ساده‌لوحانه همه متون قبل از رمزگذار است، جلوگیری می‌کند و در عین حال به رمزگشا بافتی جهانی از تمام شواهد بازیابی شده می‌دهد.

محدودیتی که مقاله به ندرت به آن اذعان می‌کند این است که توجه متقاطع (cross-attention) رمزگشا، گلوگاه اصلی در زمان استنتاج است. توجه متقاطع باید تمام جفت‌های کلید-مقدار (key-value) رمزگذار را در هر لایه رمزگشا و در هر مرحله تولید بارگذاری کند، و این تانسورهای کلید-مقدار به صورت خطی با تعداد متون رشد می‌کنند. یک مطالعه تکمیلی در سال ۲۰۲۳ به نام FiDO (arXiv:2212.08153) نشان داد که جایگزینی توجه چند-سر (multi-head) با توجه چند-پرسشی (multi-query) و هرس کردن لایه‌های توجه متقاطع، منجر به ۷ برابر سرعت استنتاج بیشتر با حداقل کاهش دقت می‌شود — که نشان می‌دهد رمزگشای اصلی FiD برای وظیفه‌ای که بر عهده دارد، به طور قابل توجهی بیش از حد مهندسی شده است.

همچنین یک شکاف کالیبراسیون وجود دارد که مقاله آن را بررسی نمی‌کند: این مقاله تطبیق دقیق را گزارش می‌دهد که به سیستم‌هایی پاداش می‌دهد که اتفاقاً رشته پاسخ متعارف دقیق را تولید می‌کنند. برای وظایف سنتز واقعی — خلاصه کردن یافته‌ها در چندین متن به جای استخراج یک بازه (span) — تطبیق دقیق خطاها را کمتر از حد واقعی نشان داده و اعتماد به نفس مدل را بیش از حد برآورد می‌کند. در تنظیمات مالی، جایی که یک عدد اشتباه در یک جمله در غیر این صورت صحیح، یک شکست جدی محسوب می‌شود، تطبیق دقیق اساساً معیار اشتباهی است.

چرا این موضوع برای هوش مصنوعی مالی مهم است

پرسش و پاسخ در دفتر کل Beancount ذاتا یک مسئله بازیابی چند-متنی است. سؤالی مانند «در سه ماهه سوم چقدر برای سفر در تمام حساب‌ها هزینه کرده‌ام؟» مستلزم سنتز ده‌ها ورودی تراکنش از تاریخ‌ها، حساب‌ها و انواع ارزهای مختلف است. یافته اصلی FiD — اینکه مدل‌های مولد می‌توانند داده‌ها را در بسیاری از متون بازیابی شده تجمیع کنند و عملکرد با بافت (context) بیشتر بهبود می‌یابد — مستقیماً امیدوارکننده است.

پیامد طراحی عملی آن ملموس است: هنگام ساخت یک لایه پرسش و پاسخ Beancount، بازیابی ورودی‌های کاندید بیشتر (۵۰-۱۰۰ به جای ۵ مورد برتر معمول) و دادن دسترسی مشترک به همه آن‌ها به مولد، احتمالا بهتر از تکیه بر رتبه‌بندی مجدد (re-ranking) برای انتخاب یک پاسخ صحیح است. معماری FiD همچنین به خوبی با ساختار دفتر کل مطابقت دارد: هر ورودی تراکنش می‌تواند به صورت مستقل رمزگذاری شود (ارزان و قابل موازی‌سازی) قبل از اینکه رمزگشا همه آن‌ها را سنتز کند.

نگرانی هزینه استنتاج برای استقرار در محیط عملیاتی واقعی است، اما مطالعه تکمیلی FiDO نشان می‌دهد که این مشکل در سطح معماری بدون جریمه دقت قابل حل است. محدودیت مبرم‌تر برای ایجنت‌های مالی این است که FiD برای پرسش و پاسخ فکت‌ محور با خروجی‌های مولد کوتاه طراحی شده است. تجزیه و تحلیل دفتر کل اغلب به محاسبات چند مرحله‌ای — جمع کردن مبالغ، محاسبه نسبت‌ها — نیاز دارد و مولد FiD ذاتا این موارد را به یک مفسر هدایت نمی‌کند. ترکیب ادغام به سبک FiD با یک سرِ تولید کد به سبک PAL، گام بعدی طبیعی برای دقت عددی است.

آنچه باید بعداً بخوانید

  • FiDO (arXiv:2212.08153, ACL Findings 2023) — توجه چند-پرسشی و هرس کردن توجه متقاطع، دقت FiD را در استنتاج ۷ برابر سریع‌تر بازیابی می‌کنند؛ ضروری برای استقرار FiD در محیط عملیاتی.
  • REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) — گو و همکاران نشان می‌دهند که چگونه می‌توان بازیابی را در طول پیش‌آموزش به جای فقط در زمان استنتاج گنجاند؛ انگیزه بالادستی را فراهم می‌کند که FiD بر آن بنا شده است.
  • Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) — توسعه FiD توسط خود ایزاکارد و همکاران برای تنظیمات چند-نمونه‌ای (few-shot) با آموزش مشترک بازیاب و خواننده، کامل‌ترین سنتز از این خط کاری.