Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود میبخشد
تولید تقویتشده با بازیابی (RAG) به این بستگی دارد که مولد تا چه حد میتواند شواهدی را که در چندین سند پراکنده شدهاند، سنتز کند. مقاله ایزاکارد و گریو در EACL ۲۰۲۱ با عنوان «بهرهگیری از بازیابی متن با مدلهای مولد برای پرسش و پاسخ دامنه باز»، یک اصلاح معماری فریبنده و ساده ارائه میدهد — متون را به صورت مستقل رمزگذاری کنید، همه آنها را در رمزگشا (decoder) ادغام کنید — که با اختلاف قابل توجهی از چارچوب RAG که در آن زمان غالب بود، بهتر عمل میکند. من اکنون در حال مطالعه آن هستم زیرا اصول طراحی آن مستقیماً با پرسش و پاسخ در دفتر کل (ledger) مطابقت دارد: قبل از تصمیمگیری در مورد نحوه بازیابی ورودیها در ایجنتهای Beancount، ارزش آن را دارد که بفهمیم کدام استراتژی ادغام واقعاً کارآمد است.
مقاله
مدل RAG اصلی لوئیس و همکاران (arXiv:2005.11401) یک بازیاب متراکم را با یک مولد BART پیوند میدهد، اما مولد را مجبور میکند در هر لحظه فقط روی یک متن بازیابی شده شرطی شود و متون را یا در هر توالی (RAG-Sequence) یا در هر توکن (RAG-Token) حاشیهبندی (marginalize) میکند. ایزاکارد و گریو این موضوع را به عنوان محدودیت اصلی شناسایی کردند: مدلی که در هر لحظه فقط میتواند یک متن را ببیند، نمیتواند به راحتی شواهدی را که در اسناد مختلف پراکنده شدهاند، مثلثبندی و تجمیع کند.
راهکار FiD (ادغام در رمزگشا) آنها ظریف است. هر متن بازیابی شده با سؤال الحاق میشود، سپس توسط رمزگذار T5 به صورت مستقل رمزگذاری میشود. رمزگذار یک بار برای هر متن اجرا میشود — که کاملاً قابل موازیسازی است. سپس رمزگشا بیشتوجهی متقاطع (cross-attention) را رو ی الحاق تمام نمایشهای متنی به طور همزمان انجام میدهد. پیچیدگی رمزگذار به صورت خطی با تعداد متون مقیاس میپذیرد؛ و نکته حیاتی این است که رمزگشا میتواند در طول هر مرحله از تولید، به مرزهای متون مختلف توجه کند. این مقاله از T5-base و T5-large به عنوان ستون فقرات مولد استفاده میکند.
ایدههای کلیدی
- مدل FiD-large با ۱۰۰ متن بازیابی شده به ۵۱.۴٪ تطبیق دقیق (exact match) در Natural Questions و ۶۷.۶٪ در TriviaQA open دست مییابد، در حالی که این ارقام برای RAG-Sequence به ترتیب ۴۷.۵٪ و ۵۶.۱٪ است — سودی در حدود ۴ و ۱۱ امتیاز.
- عملکرد در Natural Questions به طور یکنواخت با تعداد متون مقیاس میپذیرد: ۳۷.۳٪ با ۱ متن، ۴۸.۸٪ با ۱۰ متن، ۵۰.۸٪ با ۵۰ متن و ۵۱.۴٪ با ۱۰۰ متن. بازده نهایی کاهش مییابد اما هرگز معکوس نمیشود.
- TriviaQA حدود ۶٪ و Natural Questions حدود ۳.۵٪ هنگام مقیاسبندی از ۱۰ به ۱۰۰ متن بهبود مییابند — شاهدی بر اینکه رمزگشا واقعاً در حال تجمیع دادههاست، نه فقط انتخاب برترین متن.
- مرحله رمزگذاری برای موازیسازی ارزان است: هر جفت (سؤال، متن) به طور مستقل پردازش میشود، بنابراین زمان اجرا با سختافزار مناسب به صورت زیر-خطی مقیاس میپذیرد.
- مدل FiD-base با ۷۷۰ میلیون پارامتر از T5-11B در حالت کتاب-بسته (closed-book) پیشی میگیرد (۴۴.۱٪ در مقابل ۳۶.۶٪ در NQ)، که نشان میدهد بازیابی باعث میشود مدلهای کوچکتر بسیار فراتر از وزن خود عمل کنند.
چه چیزی پابرجا میماند — و چه چیزی نه
نتیجه اصلی قدرتمند است و به طور گسترده بازتولید شده است. بینش معماری — رمزگذاری مستقل، رمزگشایی مشترک — واقعاً تمیز است: این روش از انفجار توجهبهخود (self-attention) درجه دوم که ناشی از الحاق سادهلوحانه همه متون قبل از رمزگذار است، جلوگیری میکند و در عین حال به رمزگشا بافتی جهانی از تمام شواهد بازیابی شده میدهد.
محدودیتی که مقاله به ندرت به آن اذعان میکند این است که توجه متقاطع (cross-attention) رمزگشا، گلوگاه اصلی در زمان استنتاج است. توجه متقاطع باید تمام جفتهای کلید-مقدار (key-value) رمزگذار را در هر لایه رمزگشا و در هر مرحله تولید بارگذاری کند، و این تانسورهای کلید-مقدار به صورت خطی با تعداد متون رشد میکنند. یک مطالعه تکمیلی در سال ۲۰۲۳ به نام FiDO (arXiv:2212.08153) نشان داد که جایگزینی توجه چند-سر (multi-head) با توجه چند-پرسشی (multi-query) و هرس کردن لایههای توجه متقاطع، منجر به ۷ برابر سرعت استنتاج بیشتر با حداقل کاهش دقت میشود — که نشان میدهد رمزگشای اصلی FiD برای وظیفهای که بر عهده دارد، به طور قابل توجهی بیش از حد مهندسی شده است.
همچنین یک شکاف کالیبراسیون وجود دارد که مقاله آن را بررسی نمیکند: این مقاله تطبیق دقیق را گزارش میدهد که به سیستمهایی پاداش میدهد که اتفاقاً رشته پاسخ متعارف دقیق را تولید میکنند. برای وظایف سنتز واقعی — خلاصه کردن یافتهها در چندین متن به جای استخراج یک بازه (span) — تطبیق دقیق خطاها را کمتر از حد واقعی نشان داده و اعتماد به نفس مدل را بیش از حد برآورد میکند. در تنظیمات مالی، جایی که یک عدد اشتباه در یک جمله در غیر این صورت صحیح، یک شکست جدی محسوب میشود، تطبیق دقیق اساساً معیار اشتباهی است.