پرش به محتوای اصلی

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

در چند مطلب اخیر مشغول مطالعه انواع مختلف RAG بوده‌ام و می‌خواستم IRCoT را درک کنم — مقاله‌ای از تریودی، بالاسوبرامانیان، خوت و سابهاروال (ACL 2023) که بازیابی را با استدلال زنجیره افکار تلفیق می‌کند، به جای اینکه صرفاً یک مرحله بازیابی در ابتدا انجام دهد. FLARE با پیش‌بینی زمان بازیابی به همین مسئله پرداخته بود؛ IRCoT رویکرد مکانیکی ساده‌تری را در پیش می‌گیرد و سوال دقیق‌تری می‌پرسد: چه می‌شود اگر هر جمله از یک زنجیره استدلال، خود به تنهایی یک پرس‌وجوی بازیابی باشد؟

مقاله

2026-05-19-ircot-interleaving-retrieval-chain-of-thought-multi-step-qa

خط‌لوله‌های موجود «بازیابی و سپس خواندن»، اسناد را یک بار بر اساس سوال اصلی بازیابی کرده و سپس همه چیز را به یک مدل زبانی بزرگ (LLM) می‌سپارند. برای سوالات تک‌گامی (single-hop) این کار اغلب کافی است. اما برای سوالات چندمرحله‌ای — مانند «آهنگساز فیلمی که کارگردانش در همان شهر باخ متولد شده کیست؟» — اسناد مرتبط برای گام دوم تنها پس از پاسخ نسبی به گام اول قابل شناسایی هستند. نویسندگان این موضوع را مشکل «وابستگی دانش» (knowledge dependency) می‌نامند و استدلال می‌کنند که بازیابی تک‌مرحله‌ای از نظر ساختاری قادر به حل آن نیست.

IRCoT این مسئله را با یک حلقه متناوب حل می‌کند: تولید جمله بعدی از یک زنجیره استدلال، استفاده از آن جمله به عنوان یک پرس‌وجوی BM25 برای بازیابی پاراگراف‌های اضافی، افزودن پاراگراف‌های بازیابی شده به بافتار پرامپت، تولید جمله استدلالی بعدی و تکرار این روند. این حلقه تا هشت مرحله اجرا می‌شود و حداکثر بافتار را به پانزده پاراگراف محدود می‌کند. هیچ آموزشی لازم نیست — این روش کاملاً مبتنی بر پرامپت‌نویسی است و به صورت صفر-نمونه (zero-shot) روی GPT-3 (code-davinci-002) و در تنظیمات چند-نمونه (few-shot) روی Flan-T5 ارزیابی شده است.

ایده‌های کلیدی

  • در HotpotQA، روش IRCoT فراخوانی بازیابی را تا ۱۱.۳+ امتیاز نسبت به بازیابی تک‌مرحله‌ای با GPT-3 و امتیاز F1 پاسخگویی نهایی را تا ۷.۱+ امتیاز (۶۰.۷ در مقابل ۵۳.۶) بهبود می‌بخشد.
  • دستاوردها در مجموعه‌داده‌های دشوارتر بزرگتر هستند: ۲۲.۶+ امتیاز در فراخوانی و ۱۳.۲+ امتیاز در F1 در 2WikiMultihopQA با GPT-3.
  • مدل Flan-T5-XXL (11B) با IRCoT به بهبود ۱۵.۳+ در امتیاز F1 در 2WikiMultihopQA نسبت به بازیابی تک‌مرحله‌ای دست می‌یابد که بزرگترین دستاورد به ازای هر مجموعه‌داده در این مقاله است.
  • مدل Flan-T5-XL (3B) با IRCoT عملکرد بهتری نسبت به GPT-3 (175B) با بازیابی تک‌مرحله‌ای دارد — شکاف ۵۸ برابری در پارامترها تنها با استراتژی بازیابی جبران شده است.
  • IRCoT خطاهای واقعیت‌سنجی را در CoT تولید شده، نسبت به بازیابی تک‌مرحله‌ای، ۵۰٪ در HotpotQA و ۴۰٪ در 2WikiMultihopQA کاهش می‌دهد (بر اساس یادداشت‌گذاری دستی ۴۰ سوال برای هر مجموعه‌داده).
  • این روش به خوبی تعمیم می‌یابد: استفاده از مثال‌های یک مجموعه‌داده برای ارزیابی مجموعه‌داده‌ای دیگر، دستاوردهای مشابهی را نشان می‌دهد که تایید می‌کند این رویکرد صرفاً برازش الگوهای درون-توزیعی نیست.

چه چیزی پابرجاست — و چه چیزی نه

ادعای اصلی — که استدلال چندمرحله‌ای به بازیابی چندمرحله‌ای نیاز دارد — قانع‌کننده است و آزمایش‌ها دقیق هستند. استفاده از چهار بنچمارک واقعاً دشوار چندگامی با ساختارهای دانش متفاوت (پل زدن، مقایسه، استدلال گسسته) این مورد را به خوبی اثبات می‌کند. این یافته که استفاده از یک «خواننده» (reader) مجزا و اختصاصی (به جای استخراج مستقیم پاسخ از فاز CoT) به طور مداوم کمک‌کننده است، یک یافته کاربردی مفید محسوب می‌شود.

آنچه کمتر رضایت‌بخش است: بودجه بازیابی بدون توجه به دشواری سوال روی پانزده پاراگراف ثابت شده است و معیار توقف نیز یک حد سخت‌گیرانه برای تعداد مراحل است، نه سیگنالی از طرف مدل که بگوید «اطلاعات کافی دارم». تریگرینگ مبتنی بر عدم قطعیت در FLARE از این نظر اصولی‌تر است، هرچند که نیاز به احتمال توکن‌های کالیبره شده دارد. ستون فقرات BM25 در IRCoT تعمداً ساده انتخاب شده است — بازیابی متراکم (dense retrieval) تقریباً به یقین نتایج را بیشتر بهبود می‌بخشد، اما نویسندگان آن را آزمایش نمی‌کنند؛ آن‌ها استدلال می‌کنند که سادگی، سهم زنجیره استدلال را شفاف‌تر می‌کند که منطقی است. هزینه محاسباتی نیز واقعی است: هر جمله تولید شده یک فراخوانی بازیابی را کلید می‌زند، بنابراین تاخیر (latency) به صورت خطی با عمق استدلال افزایش می‌یابد. کارهای اخیر در سال ۲۰۲۵ (مانند LevelRAG و GlobalRAG) گزارش می‌دهند که این خط‌لوله صلبِ «یک جمله-یک بازیابی»، عملکرد را در وظایفی که به جای استدلال زنجیره‌ای متوالی، به جمع‌آوری اطلاعات موازی نیاز دارند، محدود می‌کند؛ به طوری که GlobalRAG بهبود ۶.۵۴ امتیازی در F1 نسبت به IRCoT در بنچمارک خود گزارش کرده است.

تحلیل توهم نیز ضعیف‌تر از حد انتظار است: ۴۰ سوال برای هر مجموعه‌داده برای ادعاهای قوی بسیار کم است و «خطای واقعی» بدون گزارش توافق بین یادداشت‌گذاران (inter-annotator agreement) به صورت دستی یادداشت‌گذاری شده است.

چرا این موضوع برای هوش مصنوعی در امور مالی اهمیت دارد

مشکل وابستگی که IRCoT حل می‌کند، مستقیماً با نحوه ردیابی سوالات مالی چندمرحله‌ای توسط یک عامل Beancount مطابقت دارد. سوالی مانند «اثر خالص تمام تراکنش‌های مربوط به حساب X بین تاریخ‌های Y و Z، پس از لحاظ کردن تبدیل‌های ارزی ذکر شده در فیلدهای یادداشت (memo) چه بود؟» را نمی‌توان با یک جستجوی برداری ساده پاسخ داد — شما باید ابتدا تراکنش‌های منطبق را پیدا کنید، سپس نرخ‌های ارز ارجاع شده را بازیابی کنید و در نهایت احتمالاً حساب‌های مقابل (contra accounts) را بررسی کنید. هر مرحله بازیابی به آنچه در مرحله قبل یافت شده بستگی دارد.

درس طراحی کاربردی در حلقه بازیابی-استدلال نهفته است: به جای قرار دادن کل یک دفتر کل چندساله در بافتار یا انجام یک جستجوی معنایی واحد، عاملی به سبک IRCoT از هر جمله استدلال میانی — مثلاً «مجموع بدهکار به expenses:food در فصل اول ۱,۲۴۰ دلار بود» — به عنوان پرس‌وجویی برای مرحله بعدی بازیابی استفاده می‌کند. این کار پنجره بافتار را بهینه نگه می‌دارد و شواهد بازیابی شده را مختص هدف می‌سازد. یافته‌ای که نشان می‌دهد یک مدل 3B با بازیابی خوب، یک مدل 175B با بازیابی ضعیف را شکست می‌دهد، با توجه به محدودیت‌های هزینه اجرای عامل‌ها روی دفاتر کل شخصی یا کسب‌وکارهای کوچک، بسیار مرتبط است. درست انجام دادن بازیابی ممکن است بیش از مقیاس مدل اهمیت داشته باشد.

محدودیتی که باید به خاطر داشت: ساختار صلبِ یک بازیابی به ازای هر جمله در IRCoT، با پرس‌وجوهای دفتر کل که نیاز به تجمیع همزمان در بسیاری از جریان‌های شواهد موازی دارند — مثلاً محاسبه انحراف بودجه در دوازده زیرحساب هزینه به طور همزمان — به مشکل خواهد خورد. اینجاست که رویکرد «ابتدا برنامه‌ریزی» (مانند LATS یا تجزیه پرس‌وجوی ساختاریافته) به جای رقابت با IRCoT، مکمل آن خواهد بود.

برای مطالعه بیشتر

  • مقاله خود IRCoT از DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) به عنوان یک پایه کلیدی یاد می‌کند — ارزش خواندن دارد تا استراتژی جایگزین تجزیه سوالات به زیرسوالات قبل از بازیابی را به جای تلفیق آن‌ها درک کنید.
  • LevelRAG (arXiv:2502.18139) بر پایه بازیابی تکرار شونده به سبک IRCoT ساخته شده و یک برنامه‌ریز سطح بالا اضافه کرده است که پرس‌وجوها را در چندین موتور جستجو بازنویسی می‌کند؛ برداشتی جدیدتر از همان مسئله که صلبیت IRCoT را برطرف می‌کند.
  • "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) یک دنباله در سال ۲۰۲۵ است که بازیابی چندمرحله‌ای را به عنوان یک زنجیره قالب‌بندی می‌کند، حلقه IRCoT را صریح کرده و سیگنال آموزش اضافه می‌کند — جانشینی طبیعی برای مطالعه پس از این مقاله.