メインコンテンツまでスキップ

IRCoT: マルチステップQAに向けた検索と思考の連鎖(Chain-of-Thought)のインターリービング

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

ここ数回、RAG(検索拡張生成)のバリエーションについて読み進めてきましたが、今回はIRCoTについて理解を深めたいと思いました。これはTrivedi、Balasubramanian、Khot、Sabharwalらによる論文(ACL 2023)で、事前に一度だけ検索を行うのではなく、検索と思考の連鎖(Chain-of-Thought; CoT)推論を交互に行う手法を提案しています。FLAREが「いつ検索するか」を予測することで同じ問題にアプローチしたのに対し、IRCoTはよりシンプルで機械的なアプローチをとり、より鋭い問いを投げかけます。「推論チェーンの各文章自体を検索クエリにしたらどうなるか?」という問いです。

論文の概要

2026-05-19-ircot-interleaving-retrieval-chain-of-thought-multi-step-qa

既存の「検索して読む(retrieve-then-read)」パイプラインは、元の質問に基づいて一度だけドキュメントを検索し、それらすべてをLLMに渡します。シングルホップの質問であれば、多くの場合これで十分です。しかし、「バッハと同じ街で生まれた監督が撮った映画の作曲家は誰か?」といったマルチステップの質問では、ステップ2に関連するドキュメントは、ステップ1を部分的に回答した後でなければ特定できません。著者はこれを「知識依存性問題」と呼び、1ステップの検索では構造的に解決不可能であると主張しています。

IRCoTは、これを交互のループで解決します。まず推論チェーンの次の文章を生成し、その文章をBM25クエリとして使用して追加の段落を検索し、検索された段落をプロンプトのコンテキストに追加して、次の推論文章を生成する、というプロセスを繰り返します。このループは最大8ステップまで実行され、コンテキストの総計は15段落に制限されます。トレーニングは不要で、この手法は完全にプロンプティングベースであり、GPT-3 (code-davinci-002) でのゼロショット設定、およびFlan-T5でのフューショット設定で評価されています。

主なポイント

  • HotpotQAにおいて、IRCoTはGPT-3を用いた1ステップ検索と比較して、検索リコールを11.3ポイント向上させ、ダウンストリームのQA F1スコアを7.1ポイント向上させました(60.7対53.6)。
  • より困難なデータセットではさらに大きな成果が得られており、2WikiMultihopQAではGPT-3を用いてリコールが22.6ポイント、F1スコアが13.2ポイント向上しました。
  • Flan-T5-XXL (11B) にIRCoTを適用すると、2WikiMultihopQAにおいて1ステップ検索に対して+15.3のF1スコアを達成しました。これは本論文におけるデータセットごとの最大の向上幅です。
  • IRCoTを適用したFlan-T5-XL (3B) は、1ステップ検索を用いたGPT-3 (175B) を上回りました。検索戦略のみによって、58倍のパラメータ格差が克服されたことになります。
  • 1ステップ検索と比較して、生成されたCoTにおける事実誤認をHotpotQAで50%、2WikiMultihopQAで40%削減しました(各データセット40問の手動アノテーションによる)。
  • この手法は分布外(OOD)に対しても汎用性があります。あるデータセットのデモンストレーションを別のデータセットの評価に使用しても同様の向上が見られ、このアプローチが単に特定のデータ分布のパターンに適合しているだけではないことが確認されました。

評価できる点と課題点

「マルチステップの推論にはマルチステップの検索が必要である」という核心的な主張には説得力があり、実験も明快です。知識構造が異なる4つの真に困難なマルチホップ・ベンチマーク(ブリッジ型、比較型、離散推論型)を使用することで、この主張を広く裏付けています。また、CoTフェーズから直接回答を抽出するのではなく、独立した専用のリーダー(読解モデル)を使用することが一貫して有効であるというアブレーション実験の結果は、実用的な知見として有用です。

一方で、不満が残る点もあります。検索バジェットが質問の難易度に関わらず15段落に固定されていることや、停止基準がモデルによる「十分な情報がある」という判断ではなく、ハードなステップ制限である点です。FLAREの不確実性に基づくトリガーの方が、キャリブレーションされたトークン確率を必要とするものの、その点ではより原理的です。また、IRCoTのBM25バックボーンは意図的にシンプルにされていますが、密ベクトル検索(dense retrieval)を使用すればほぼ確実に結果はさらに向上したはずです。著者は、シンプルさゆえに推論チェーンの寄与が明確になると主張しており、それは妥当な判断と言えます。計算コストも無視できません。生成された1文ごとに検索コールが発生するため、レイテンシは推論の深さに応じて線形に増加します。2025年の最近の研究(LevelRAG、GlobalRAG)では、この硬直した「1文1検索」のパイプラインは、逐次的な連鎖推論よりも並列的な情報収集を必要とするタスクにおいてパフォーマンスを制約すると報告されており、GlobalRAGはベンチマークにおいてIRCoTを6.54 F1ポイント上回ったとしています。

ハルシネーション(幻覚)の分析も、期待していたよりは薄いものでした。データセットごとに40問というのは強い主張をするには少なすぎますし、「事実誤認」はアノテーター間の合意率が報告されないまま手動でアノテーションされています。

なぜこれが金融AIにとって重要なのか

IRCoTが解決する依存性問題は、Beancountエージェントがマルチステップの財務的な質問を追跡する方法に直結します。「メモ欄に記載された通貨換算を考慮した上で、日付YからZの間に勘定科目Xに関わったすべての取引の純影響はどうだったか?」という問いは、一度のベクトル検索では答えられません。まず一致する取引を見つけ、次に参照されている為替レートを取得し、さらに相手勘定(contra accounts)を取得する必要があるかもしれません。各検索ステップは、前のステップで見つかった内容に依存します。

実用的な設計上の教訓は「検索・推論ループ」です。数年分もの元帳全体をコンテキストに詰め込んだり、一度きりのセマンティック検索を行ったりするのではなく、IRCoTスタイルのエージェントは、「第1四半期のexpenses:foodへのデビット合計は1,240ドルであった」といった中間的な推論の各文章を、次の検索ステップのクエリとして使用します。これにより、コンテキストウィンドウをスリムに保ち、検索される証拠を目的特化型に維持できます。優れた検索を備えた3Bモデルが、不十分な検索しか持たない175Bモデルに勝るという発見は、個人や中小企業の元帳に対してエージェントを動かす際のコスト制約を考えると特に重要です。モデルの規模よりも、検索を正しく行うことの方が重要かもしれません。

今後考慮すべき制限事項として、IRCoTの硬直した「1文1検索」構造は、多くの並列的な証拠ストリームを集約する必要がある元帳クエリ(例:12個の費用のサブ勘定にわたる予算差異を一度に計算するなど)には苦労するでしょう。そのような場合には、IRCoTと競合するのではなく、計画優先のアプローチ(LATSや構造化されたクエリ分解など)がIRCoTを補完することになるでしょう。

次に読むべきもの

  • IRCoTの論文自体、DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) を主要なベースラインとして引用しています。検索の前に質問をサブ質問に分解するという代替戦略を理解するために読む価値があります。
  • LevelRAG (arXiv:2502.18139) は、IRCoTスタイルの反復検索を基盤とし、複数の検索エンジンにまたがってクエリを書き換える上位プランナーを追加したものです。IRCoTの硬直性に対処した、より最近のアプローチです。
  • "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) は2025年のフォローアップ研究で、マルチステップ検索をチェーンとして構成し、IRCoTループを明示的にしてトレーニング信号を追加したものです。この論文の後に読むべき自然な後継研究です。