IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحلهای
در چند مطلب اخیر مشغول مطالعه انواع مختلف RAG بودهام و میخواستم IRCoT را درک کنم — مقالهای از تریودی، بالاسوبرامانیان، خوت و سابهاروال (ACL 2023) که بازیابی را با استدلال زنجیره افکار تلفیق میکند، به جای اینکه صرفاً یک مرحله بازیابی در ابتدا انجام دهد. FLARE با پیشبینی زمان بازیابی به همین مسئله پرداخته بود؛ IRCoT رویکرد مکانیکی سادهتری را در پیش میگیرد و سوال دقیقتری میپرسد: چه میشود اگر هر جمله از یک زنجیره استدلال، خود به تنهایی یک پرسوجوی بازیابی باشد؟
مقاله
خطلولههای موجود «بازیابی و سپس خواندن»، اسناد را یک بار بر اساس سوال اصلی بازیابی کرده و سپس همه چیز را به یک مدل زبانی بزرگ (LLM) میسپارند. برای سوالات تکگامی (single-hop) این کار اغلب کافی است. اما برای سوالات چندمرحلهای — مانند «آهنگساز فیلمی که کارگردانش در همان شهر باخ متولد شده کیست؟» — اسناد مرتبط برای گام دوم تنها پس از پاسخ نسبی به گام اول قابل شناسایی هستند. نویسندگان این موضوع را مشکل «وابستگی دانش» (knowledge dependency) مینامند و استدلال میکنند که بازیابی تکمرحلهای از نظر ساختاری قادر به حل آن نیست.
IRCoT این مسئله را با یک حلقه متناوب حل میکند: تولید جمله بعدی از یک زنجیره استدلال، استفاده از آن جمله به عنوان یک پرسوجوی BM25 برای بازیابی پاراگرافهای اضافی، افزودن پاراگرافهای بازیابی شده به بافتار پرامپت، تولید جمله استدلالی بعدی و تکرار این روند. این حلقه تا هشت مرحله اجرا میشود و حداکثر بافتار را به پانزده پاراگراف محدود میکند. هیچ آموزشی لازم نیست — این روش کاملاً مبتنی بر پرامپتنویسی است و به صورت صفر-نمونه (zero-shot) روی GPT-3 (code-davinci-002) و در تنظیمات چند-نمونه (few-shot) روی Flan-T5 ارزیابی شده است.
ایدههای کلیدی
- در HotpotQA، روش IRCoT فراخوانی بازیابی را تا ۱۱.۳+ امتیاز نسبت به بازیابی تکمرحلهای با GPT-3 و امتیاز F1 پاسخگویی نهایی را تا ۷.۱+ امتیاز (۶۰.۷ در مقابل ۵۳.۶) بهبود میبخشد.
- دستاوردها در مجموعهدادههای دشوارتر بزرگتر هستند: ۲۲.۶+ امتیاز در فراخوانی و ۱۳.۲+ امتیاز در F1 در 2WikiMultihopQA با GPT-3.
- مدل Flan-T5-XXL (11B) با IRCoT به بهبود ۱۵.۳+ در امتیاز F1 در 2WikiMultihopQA نسبت به بازیابی تکمرحلهای دست مییابد که بزرگترین دستاورد به ازای هر مجموعهداده در این مقاله است.
- مدل Flan-T5-XL (3B) با IRCoT عملکرد بهتری نسبت به GPT-3 (175B) با بازیابی تکمرحلهای دارد — شکاف ۵۸ برابری در پارامترها تنها با استراتژی بازیابی جبران شده است.
- IRCoT خطاهای واقعیتسنجی را در CoT تولید شده، نسبت به بازیابی تکمرحلهای، ۵۰٪ در HotpotQA و ۴۰٪ در 2WikiMultihopQA کاهش میدهد (بر اساس یادداشتگذاری دستی ۴۰ سوال برای هر مجموعهداده).
- این روش به خوبی تعمیم مییابد: استفاده از مثالهای یک مجموعهداده برای ارزیابی مجموعهدادهای دیگر، دستاوردهای مشابهی را نشان میدهد که تایید میکند این رویکرد صرفاً برازش الگوهای درون-توزیع ی نیست.
چه چیزی پابرجاست — و چه چیزی نه
ادعای اصلی — که استدلال چندمرحلهای به بازیابی چندمرحلهای نیاز دارد — قانعکننده است و آزمایشها دقیق هستند. استفاده از چهار بنچمارک واقعاً دشوار چندگامی با ساختارهای دانش متفاوت (پل زدن، مقایسه، استدلال گسسته) این مورد را به خوبی اثبات میکند. این یافته که استفاده از یک «خواننده» (reader) مجزا و اختصاصی (به جای استخراج مستقیم پاسخ از فاز CoT) به طور مداوم کمککننده است، یک یافته کاربردی مفید محسوب میشود.
آنچه کمتر رضایتبخش است: بودجه بازیابی بدون توجه به دشواری سوال روی پانزده پاراگراف ثابت شده است و معیار توقف نیز یک حد سختگیرانه برای تعداد مراحل است، نه سیگنالی از طرف مدل که بگوید «اطلاعات کافی دارم». تریگرینگ مبتنی بر عدم قطعیت در FLARE از این نظر اصولیتر است، هرچند که نیاز به احتمال توکنهای کالیبره شده دارد. ستون فقرات BM25 در IRCoT تعمداً ساده انتخاب شده است — بازیابی متراکم (dense retrieval) تقریباً به یقین نتایج را بیشتر بهبود میبخشد، اما نویسندگان آن را آزمایش نمیکنند؛ آنها استدلال میکنند که سادگی، سهم زنجیره استدلال را شفافتر میکند که منطقی است. هزینه محاسباتی نیز واقعی است: هر جمله تولید شده یک فراخوانی بازیابی را کلید میزند، بنابراین تاخیر (latency) به صورت خطی با عمق استدلال افزایش مییابد. کارهای اخیر در سال ۲۰۲۵ (مانند LevelRAG و GlobalRAG) گزارش میدهند که این خطلوله صلبِ «یک جمله-یک بازیابی»، عملکرد را در وظایفی که به جای استدلال زنجیرهای متوالی، به جمعآوری اطلاعات موازی نیاز دارند، محدود میکند؛ به طوری که GlobalRAG بهبود ۶.۵۴ امتیازی در F1 نسبت به IRCoT در بنچمارک خود گزارش کرده است.
تحلیل توهم نیز ضعیفتر از حد انتظار است: ۴۰ سوال برای هر مجموعهداده برای ادعاهای قوی بسیار کم است و «خطای واقعی» بدون گزارش توافق بین یادداشتگذاران (inter-annotator agreement) به صورت دستی یادداشتگذاری شده است.
چرا این موضوع برای هوش مصنوعی در امور مالی اهمیت دارد
مشکل وابستگی که IRCoT حل میکند، مستقیماً با نحوه ردیابی سوالات مالی چندمرحلهای توسط یک عامل Beancount مطابقت دارد. سوالی مانند «اثر خالص تمام تراکنشهای مربوط به حساب X بین تاریخهای Y و Z، پس از لحاظ کردن تبدیلهای ارزی ذکر شده در فیلدهای یادداشت (memo) چه بود؟» را نمیتوان با یک جستجوی برداری ساده پاسخ داد — شما باید ابتدا تراکنشهای منطبق را پیدا کنید، سپس نرخهای ارز ارجاع شده را بازیابی کنید و در نهایت احتمالاً حسابهای مقابل (contra accounts) را بررسی کنید. هر مرحله بازیابی به آنچه در مرحله قبل یافت شده بستگی دارد.
درس طراحی کاربردی در حلقه بازیا بی-استدلال نهفته است: به جای قرار دادن کل یک دفتر کل چندساله در بافتار یا انجام یک جستجوی معنایی واحد، عاملی به سبک IRCoT از هر جمله استدلال میانی — مثلاً «مجموع بدهکار به expenses:food در فصل اول ۱,۲۴۰ دلار بود» — به عنوان پرسوجویی برای مرحله بعدی بازیابی استفاده میکند. این کار پنجره بافتار را بهینه نگه میدارد و شواهد بازیابی شده را مختص هدف میسازد. یافتهای که نشان میدهد یک مدل 3B با بازیابی خوب، یک مدل 175B با بازیابی ضعیف را شکست میدهد، با توجه به محدودیتهای هزینه اجرای عاملها روی دفاتر کل شخصی یا کسبوکارهای کوچک، بسیار مرتبط است. درست انجام دادن بازیابی ممکن است بیش از مقیاس مدل اهمیت داشته باشد.
محدودیتی که باید به خاطر داشت: ساختار صلبِ یک بازیابی به ازای هر جمله در IRCoT، با پرسوجوهای دفتر کل که نیاز به تجمیع همزمان در بسیاری از جریانهای شواهد موازی دارند — مثلاً محاسبه انحراف بودجه در دوازده زیرحساب هزینه به طور همزمان — به مشکل خواهد خورد. اینجاست که رویکرد «ابتدا برنامهریزی» (مانند LATS یا تجزیه پرسوجوی ساختاریافته) به جای رقابت با IRCoT، مکمل آن خواهد بود.
برای مطالعه بیشتر
- مقاله خود IRCoT از DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) به عنوان یک پایه کلیدی یاد میکند — ارزش خواندن دارد تا استراتژی جایگزین تجزیه سوالات به زیرسوالات قبل از بازیابی را به جای تلفیق آنها درک کنید.
- LevelRAG (arXiv:2502.18139) بر پایه بازیابی تکرار شونده به سبک IRCoT ساخته شده و یک برنامهریز سطح بالا اضافه کرده است که پرسوجوها را در چندین موتور جستجو بازنویسی میکند؛ برداشتی جدیدتر از همان مسئله که صلبیت IRCoT را برطرف میکند.
- "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) یک دنباله در سال ۲۰۲۵ است که بازیابی چندمرحلهای را به عنوان یک زنجیره قالببندی میکند، حلقه IRCoT را صریح کرده و سیگنال آموزش اضافه میکند — جانشینی طبیعی برای مطالعه پس از این مقاله.
