FLARE: تولید افزوده با بازیابی فعال
هفته گذشته در حال مطالعه مقاله بنیادی RAG توسط Lewis و همکاران بودم — یک بار بازیابی، الحاق نتیجه به ابتدا، و سپس تولید. این روش کار میکند، اما فرض بر این است که شما از قبل میدانید به چه چیزی نیاز دارید. FLARE (EMNLP 2023) مستقیماً به این فرض حمله میکند: چه میشود اگر زمان مناسب برای بازیابی در میانه جمله باشد، دقیقاً زمانی که مدل شروع به تردید میکند؟ این سوالی است که ارزش فکر کردن دقیق برای هر سیستمی را دارد — مانند یک عامل Beancount — که نیاز دارد بر روی تاریخچه دفتر کل که در یک پنجره بافت واحد جا نمیشود، استدلال کند.
مقاله
مقاله "Active Retrieval Augmented Generation" توسط Zhengbao Jiang، Frank F. Xu، Luyu Gao، Zhiqing Sun، Qian Liu، Jane Dwivedi-Yu، Yiming Yang، Jamie Callan و Graham Neubig مدل FLARE را پیشنهاد میکند: تولید افزوده با بازیابی فعال آیندهنگر. مشکلی که آنها حل میکنند، توهم در حین تولید متنهای طولانی است، جایی که مدل باید چندین قطعه دانش را از میان یک خروجی گسترده استخراج کند. RAG استاندارد در زمان پرسوجو یک بار بازیابی انجام میدهد و امیدوار است که متن بازیابی شده تمام نیازهای تولید را پوشش دهد — که برای پاسخهای کوتاه مناسب است، اما برای پاسخهای چند پاراگرافی شکننده عمل میکند.
FLARE تولید را به مراحل در سطح جمله تقسیم میکند. در هر مرحله، یک جمله کاندیدای بعدی تولید میکند. اگر هر توکنی در آن کاندیدا احتمال پیشبینی شدهای کمتر از آستانه θ داشته باشد، FLARE آن بازههای کماطمینان را به عنوان سیگنالهای بازیابی در نظر میگیرد، از آنها (به صورت ماسک شده یا تکمیل شده) برای ایجاد یک پرسوجو استفاده میکند، از ویکیپدیا بازیابی انجام میدهد و جمله را با بافت بازیابی شده دوباره تولید میکند. نتیجه سیستمی است که فقط زمانی و تقریباً در جایی که تردید دارد بازیابی میکند — نه اینکه بازیابی را برای محتوایی که هرگز به آن نیاز نخواهد داشت، در ابتدا بارگذاری کند. تمام آزمایشها بر روی GPT-3.5 (text-davinci-003) بدون هیچ گونه تنظیم دقیق انجام شده است.
ایدههای کلیدی
- اعتماد به عنوان محرک بازیابی: احتمال توکن زیر θ نشاندهنده این است که مدل احتمالاً دچار توهم میشود؛ بازیابی فقط در آن زمان تحریک میشود، نه به صورت پیشفرض. نویسندگان دریافتند که تحریک برای ۴۰ تا ۸۰ درصد جملات معمولاً بهترین عملکرد را دارد.
- پرسوجوهای آیندهنگر: به جای استفاده از آنچه قبلاً تولید شده به عنوان پرسوجو (رویکرد "پنجره قبلی")، FLARE از جمله پیشبینی شده آتی — آنچه مدل فکر میکند خواهد گفت — به عنوان یک پرسوجوی بازیابی بسیار هدفمندتر استفاده میکند.
- دو نوع متغیر: FLARE-instruct توکنهای کماطمینان را ماسک میکند و از بازه ماسک شده به عنوان پرسوجو استفاده میکند؛ FLARE-direct از کل جمله پیشبینی شده استفاده میکند. در 2WikiMultihopQA، نوع direct به ۵۱.۰ EM در مقابل ۴۲.۴ برای نوع instruct میرسد.
- بهبود نسبت به تکبازیابی واقعی اما ناهموار است: در 2WikiMultihopQA، مدل FLARE-direct به ۵۱.۰ EM میرسد در حالی که برای تکبازیابی ۳۹.۴ و بدون بازیابی ۲۸.۲ است — یک بهبود قاطع. در ASQA شکاف بسیار کوچکتر است (۴۱.۳ در مقابل ۴۰.۰)، و در WikiAsp (UniEval ۵۳.۴ در مقابل ۵۲.۴) تقریباً مساوی است.
- موارد شکست صریح: نویسندگان گزارش میدهند که FLARE در Wizard of Wikipedia و ELI5 هیچ بهبودی ایجاد نمیکند، جایی که خروجیهای کوتاه به این معنی است که بازیابی چند مرحلهای بدون داشتن فایده، بار اضافی ایجاد میکند.
- هزینه: از آنجا که تولید و بازیابی با هم تداخل دارند، هر مثال ممکن است باعث چندین تکمیل LM و فراخوانی بازیابی شود. ذخیرهسازی ساده نیست.
چه چیزی پابرجا میماند — و چه چیزی نه
قاببندی آیندهنگرانه بخش واقعاً هوشمندانه کار است. استفاده از محتوای پیشبینی شده به عنوان پرسوجوی بازیابی، اطلاعات بیشتری نسبت به پیشوند به تنهایی فراهم میکند، به ویژه برای وظایف چند مرحلهای که نتایج میانی تعیین میکنند در مرحله بعد به چه حقیقتی نیاز دارید. شکاف ۵۱.۰ در مقابل ۳۹.۴ EM در 2WikiMultihopQA این موض وع را تایید میکند.
اما سیگنال اطمینان FLARE کاملاً به میزان کالیبره بودن مدل بستگی دارد. احتمالات توکن از یک مدل تکمیل پایه مانند text-davinci-003 به طور منطقی با عدم قطعیت همبستگی دارد. این موضوع برای مدلهای چت آموزشدیده با دستورالعمل یا تنظیم شده با RLHF صادق نیست، که اغلب بیش از حد مطمئن هستند — آنها توکنهایی با احتمال بالا منتشر میکنند حتی زمانی که در حال توهم زدن هستند. یک پیگیری در سال ۲۰۲۴ با نام Unified Active Retrieval (UAR, arXiv:2406.12534)، مدل FLARE را در یک مجموعه تصمیمگیری بازیابی گستردهتر محک میزند و در مییابد که تنها ۵۶.۵۰٪ دقت در سناریوهای مختلف به دست میآورد، در حالی که رویکرد مبتنی بر طبقهبندی UAR به ۸۵.۳۲٪ میرسد. مشکل کالیبراسیون یک مورد حاشیهای نیست؛ این فرض اصلی است که روش بر آن استوار است.
همچنین سوالی در مورد جزئیات بازیابی وجود دارد که مقاله به طور کامل به آن نمیپردازد. تحریک در سطح جمله یک روش اکتشافی معقول است، اما برخی حقایق از مرزهای جملات فراتر میروند و برخی دیگر در نام یک موجودیت واحد متمرکز هستند. احتمال پایین در یک توکن عددی (مبلغ، تاریخ) احتمالاً باید بازیابی را متفاوت از احتمال پایین در یک کلمه ربط تحریک کند. مقاله با تمام توکنهای کماطمینان به صورت متقارن رفتار میکند.
در نهای ت، حلقه "اگر تردید داری دوباره تولید کن" باعث ایجاد تاخیر میشود. نویسندگان به این موضوع اذعان دارند اما آن را در برابر بودجه تاخیر کمیسازی نمیکنند، که برای برنامههای تعاملی یا نزدیک به زمان واقعی اهمیت دارد.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
یک عامل Beancount که یک دفتر کل چند ساله را خلاصه میکند، نمیتواند تمام ورودیهای تاریخی را از ابتدا بازیابی کند — بافت بیش از حد پر میشود و بیشتر آن برای پاسخ فعلی نامرتبط خواهد بود. طراحی FLARE با این مشکل به خوبی همخوانی دارد: پیشنویس اولیه تفسیر تطبیق را تولید کنید، متوجه اطمینان پایین در تراز جاری یک فروشنده خاص شوید، فقط تراکنشهای مرتبط را بازیابی کنید، و سپس آن جمله را دوباره تولید کنید. این الگو درست است.
با این حال، مشکل کالیبراسیون یک نگرانی جدی است. عاملهای مالی تولیدی تقریباً در همه جا از مدلهای چت آموزشدیده با دستورالعمل (GPT-4، Claude، Gemini) استفاده میکنند، نه مدلهای تکمیل پایه. اگر این مدلها بیش از حد مطمئن باشند — که اغلب در ادعاهای عددی اینگونه هستند — بازیابی را دقیقاً زمانی که باید تحریک شود، نادیده میگیرند. یک عامل Beancount که تاریخ تراکنش را با اطمینان بالا به غلط حدس میزند و هرگز برای تایید بازیابی نمیکند، بدتر از بیاستفاده بودن است.
درس عملی این است که ساختار پرسوجوی آیندهنگر FLARE را با یک محرک بازیابی همراه کنید که صرفاً به احتمال توکن متکی نباشد. نشانگرهای عدم قطعیت صریح (عبارات تردیدآمیز، اعداد گرد، موجودیتهایی که مدل اخیراً ندیده است) میتوانند سیگنال اطمینان را تکمیل کنند. یا رویکرد UAR را در پیش بگیرید: یک طبقهبندیکننده سبکوزن روی حالتهای پنهان مدل آموزش دهید که نسبت به لاجیتهای خام در برابر عدم کالیبراسیون مقاومتر باشد.
مطالب پیشنهادی برای مطالعه بیشتر
- IRCoT: "Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions" (arXiv:2212.10509) — بازیابی را با مراحل CoT به جای اطمینان توکن جفت میکند؛ ارزش مقایسه مستقیم با FLARE در وظایف چند مرحلهای را دارد.
- Unified Active Retrieval (UAR, arXiv:2406.12534) — پیگیری مستقیمی که شکاف کالیبراسیون FLARE را فاش میکند و تصمیمات بازیابی مبتنی بر طبقهبندیکننده را در چهار سناریوی بازیابی پیشنهاد میدهد.
- "Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home" (arXiv:2501.12835) — مقالهای در سال ۲۰۲۵ که دوباره بررسی میکند آیا محرکهای مبتنی بر احتمال توکن را میتوان با تکنیکهای کالیبراسیون بهتر احیا کرد یا خیر.
