پرش به محتوای اصلی

FLARE: تولید افزوده با بازیابی فعال

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

هفته گذشته در حال مطالعه مقاله بنیادی RAG توسط Lewis و همکاران بودم — یک بار بازیابی، الحاق نتیجه به ابتدا، و سپس تولید. این روش کار می‌کند، اما فرض بر این است که شما از قبل می‌دانید به چه چیزی نیاز دارید. FLARE (EMNLP 2023) مستقیماً به این فرض حمله می‌کند: چه می‌شود اگر زمان مناسب برای بازیابی در میانه جمله باشد، دقیقاً زمانی که مدل شروع به تردید می‌کند؟ این سوالی است که ارزش فکر کردن دقیق برای هر سیستمی را دارد — مانند یک عامل Beancount — که نیاز دارد بر روی تاریخچه دفتر کل که در یک پنجره بافت واحد جا نمی‌شود، استدلال کند.

مقاله

2026-05-18-flare-active-retrieval-augmented-generation

مقاله "Active Retrieval Augmented Generation" توسط Zhengbao Jiang، Frank F. Xu، Luyu Gao، Zhiqing Sun، Qian Liu، Jane Dwivedi-Yu، Yiming Yang، Jamie Callan و Graham Neubig مدل FLARE را پیشنهاد می‌کند: تولید افزوده با بازیابی فعال آینده‌نگر. مشکلی که آن‌ها حل می‌کنند، توهم در حین تولید متن‌های طولانی است، جایی که مدل باید چندین قطعه دانش را از میان یک خروجی گسترده استخراج کند. RAG استاندارد در زمان پرس‌وجو یک بار بازیابی انجام می‌دهد و امیدوار است که متن بازیابی شده تمام نیازهای تولید را پوشش دهد — که برای پاسخ‌های کوتاه مناسب است، اما برای پاسخ‌های چند پاراگرافی شکننده عمل می‌کند.

FLARE تولید را به مراحل در سطح جمله تقسیم می‌کند. در هر مرحله، یک جمله کاندیدای بعدی تولید می‌کند. اگر هر توکنی در آن کاندیدا احتمال پیش‌بینی شده‌ای کمتر از آستانه θ داشته باشد، FLARE آن بازه‌های کم‌اطمینان را به عنوان سیگنال‌های بازیابی در نظر می‌گیرد، از آن‌ها (به صورت ماسک شده یا تکمیل شده) برای ایجاد یک پرس‌وجو استفاده می‌کند، از ویکی‌پدیا بازیابی انجام می‌دهد و جمله را با بافت بازیابی شده دوباره تولید می‌کند. نتیجه سیستمی است که فقط زمانی و تقریباً در جایی که تردید دارد بازیابی می‌کند — نه اینکه بازیابی را برای محتوایی که هرگز به آن نیاز نخواهد داشت، در ابتدا بارگذاری کند. تمام آزمایش‌ها بر روی GPT-3.5 (text-davinci-003) بدون هیچ گونه تنظیم دقیق انجام شده است.

ایده‌های کلیدی

  • اعتماد به عنوان محرک بازیابی: احتمال توکن زیر θ نشان‌دهنده این است که مدل احتمالاً دچار توهم می‌شود؛ بازیابی فقط در آن زمان تحریک می‌شود، نه به صورت پیش‌فرض. نویسندگان دریافتند که تحریک برای ۴۰ تا ۸۰ درصد جملات معمولاً بهترین عملکرد را دارد.
  • پرس‌وجوهای آینده‌نگر: به جای استفاده از آنچه قبلاً تولید شده به عنوان پرس‌وجو (رویکرد "پنجره قبلی")، FLARE از جمله پیش‌بینی شده آتی — آنچه مدل فکر می‌کند خواهد گفت — به عنوان یک پرس‌وجوی بازیابی بسیار هدفمندتر استفاده می‌کند.
  • دو نوع متغیر: FLARE-instruct توکن‌های کم‌اطمینان را ماسک می‌کند و از بازه ماسک شده به عنوان پرس‌وجو استفاده می‌کند؛ FLARE-direct از کل جمله پیش‌بینی شده استفاده می‌کند. در 2WikiMultihopQA، نوع direct به ۵۱.۰ EM در مقابل ۴۲.۴ برای نوع instruct می‌رسد.
  • بهبود نسبت به تک‌بازیابی واقعی اما ناهموار است: در 2WikiMultihopQA، مدل FLARE-direct به ۵۱.۰ EM می‌رسد در حالی که برای تک‌بازیابی ۳۹.۴ و بدون بازیابی ۲۸.۲ است — یک بهبود قاطع. در ASQA شکاف بسیار کوچک‌تر است (۴۱.۳ در مقابل ۴۰.۰)، و در WikiAsp (UniEval ۵۳.۴ در مقابل ۵۲.۴) تقریباً مساوی است.
  • موارد شکست صریح: نویسندگان گزارش می‌دهند که FLARE در Wizard of Wikipedia و ELI5 هیچ بهبودی ایجاد نمی‌کند، جایی که خروجی‌های کوتاه به این معنی است که بازیابی چند مرحله‌ای بدون داشتن فایده، بار اضافی ایجاد می‌کند.
  • هزینه: از آنجا که تولید و بازیابی با هم تداخل دارند، هر مثال ممکن است باعث چندین تکمیل LM و فراخوانی بازیابی شود. ذخیره‌سازی ساده نیست.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

قاب‌بندی آینده‌نگرانه بخش واقعاً هوشمندانه کار است. استفاده از محتوای پیش‌بینی شده به عنوان پرس‌وجوی بازیابی، اطلاعات بیشتری نسبت به پیشوند به تنهایی فراهم می‌کند، به ویژه برای وظایف چند مرحله‌ای که نتایج میانی تعیین می‌کنند در مرحله بعد به چه حقیقتی نیاز دارید. شکاف ۵۱.۰ در مقابل ۳۹.۴ EM در 2WikiMultihopQA این موضوع را تایید می‌کند.

اما سیگنال اطمینان FLARE کاملاً به میزان کالیبره بودن مدل بستگی دارد. احتمالات توکن از یک مدل تکمیل پایه مانند text-davinci-003 به طور منطقی با عدم قطعیت همبستگی دارد. این موضوع برای مدل‌های چت آموزش‌دیده با دستورالعمل یا تنظیم شده با RLHF صادق نیست، که اغلب بیش از حد مطمئن هستند — آن‌ها توکن‌هایی با احتمال بالا منتشر می‌کنند حتی زمانی که در حال توهم زدن هستند. یک پیگیری در سال ۲۰۲۴ با نام Unified Active Retrieval (UAR, arXiv:2406.12534)، مدل FLARE را در یک مجموعه تصمیم‌گیری بازیابی گسترده‌تر محک می‌زند و در می‌یابد که تنها ۵۶.۵۰٪ دقت در سناریوهای مختلف به دست می‌آورد، در حالی که رویکرد مبتنی بر طبقه‌بندی UAR به ۸۵.۳۲٪ می‌رسد. مشکل کالیبراسیون یک مورد حاشیه‌ای نیست؛ این فرض اصلی است که روش بر آن استوار است.

همچنین سوالی در مورد جزئیات بازیابی وجود دارد که مقاله به طور کامل به آن نمی‌پردازد. تحریک در سطح جمله یک روش اکتشافی معقول است، اما برخی حقایق از مرزهای جملات فراتر می‌روند و برخی دیگر در نام یک موجودیت واحد متمرکز هستند. احتمال پایین در یک توکن عددی (مبلغ، تاریخ) احتمالاً باید بازیابی را متفاوت از احتمال پایین در یک کلمه ربط تحریک کند. مقاله با تمام توکن‌های کم‌اطمینان به صورت متقارن رفتار می‌کند.

در نهایت، حلقه "اگر تردید داری دوباره تولید کن" باعث ایجاد تاخیر می‌شود. نویسندگان به این موضوع اذعان دارند اما آن را در برابر بودجه تاخیر کمی‌سازی نمی‌کنند، که برای برنامه‌های تعاملی یا نزدیک به زمان واقعی اهمیت دارد.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

یک عامل Beancount که یک دفتر کل چند ساله را خلاصه می‌کند، نمی‌تواند تمام ورودی‌های تاریخی را از ابتدا بازیابی کند — بافت بیش از حد پر می‌شود و بیشتر آن برای پاسخ فعلی نامرتبط خواهد بود. طراحی FLARE با این مشکل به خوبی همخوانی دارد: پیش‌نویس اولیه تفسیر تطبیق را تولید کنید، متوجه اطمینان پایین در تراز جاری یک فروشنده خاص شوید، فقط تراکنش‌های مرتبط را بازیابی کنید، و سپس آن جمله را دوباره تولید کنید. این الگو درست است.

با این حال، مشکل کالیبراسیون یک نگرانی جدی است. عامل‌های مالی تولیدی تقریباً در همه جا از مدل‌های چت آموزش‌دیده با دستورالعمل (GPT-4، Claude، Gemini) استفاده می‌کنند، نه مدل‌های تکمیل پایه. اگر این مدل‌ها بیش از حد مطمئن باشند — که اغلب در ادعاهای عددی اینگونه هستند — بازیابی را دقیقاً زمانی که باید تحریک شود، نادیده می‌گیرند. یک عامل Beancount که تاریخ تراکنش را با اطمینان بالا به غلط حدس می‌زند و هرگز برای تایید بازیابی نمی‌کند، بدتر از بی‌استفاده بودن است.

درس عملی این است که ساختار پرس‌وجوی آینده‌نگر FLARE را با یک محرک بازیابی همراه کنید که صرفاً به احتمال توکن متکی نباشد. نشانگرهای عدم قطعیت صریح (عبارات تردیدآمیز، اعداد گرد، موجودیت‌هایی که مدل اخیراً ندیده است) می‌توانند سیگنال اطمینان را تکمیل کنند. یا رویکرد UAR را در پیش بگیرید: یک طبقه‌بندی‌کننده سبک‌وزن روی حالت‌های پنهان مدل آموزش دهید که نسبت به لاجیت‌های خام در برابر عدم کالیبراسیون مقاوم‌تر باشد.

مطالب پیشنهادی برای مطالعه بیشتر

  • IRCoT: "Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions" (arXiv:2212.10509) — بازیابی را با مراحل CoT به جای اطمینان توکن جفت می‌کند؛ ارزش مقایسه مستقیم با FLARE در وظایف چند مرحله‌ای را دارد.
  • Unified Active Retrieval (UAR, arXiv:2406.12534) — پیگیری مستقیمی که شکاف کالیبراسیون FLARE را فاش می‌کند و تصمیمات بازیابی مبتنی بر طبقه‌بندی‌کننده را در چهار سناریوی بازیابی پیشنهاد می‌دهد.
  • "Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home" (arXiv:2501.12835) — مقاله‌ای در سال ۲۰۲۵ که دوباره بررسی می‌کند آیا محرک‌های مبتنی بر احتمال توکن را می‌توان با تکنیک‌های کالیبراسیون بهتر احیا کرد یا خیر.