メインコンテンツまでスキップ

StructRAG (ICLR 2025): 適切なドキュメント構造の選択により、GraphRAGを28ポイント上回る

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

実運用環境におけるRAGに対するよくある不満は、関連する事実が互換性のない形式で数十のドキュメントに散らばっている場合、検索が「無骨な道具(blunt instrument)」になってしまうことです。StructRAG (Li et al., ICLR 2025) は、取得したテキストを推論前にタスクに適した構造(表、グラフ、カタログ、アルゴリズム、または単純なチャンク)に変換することで、この問題に正面から取り組んでいます。この手法は、「人間は複雑な推論タスクに取り組む際、生の情報を自然に構造化された表現に作り替える」という認知理論の主張に基づいています。その枠組みが単なる比喩なのかメカニズムなのかはさておき、実証的な数値は注意深く検討する価値があります。

論文の概要

2026-06-01-structrag-inference-time-hybrid-information-structurization

StructRAGは、3つのモジュールで構成される推論時パイプラインを提案しています。第一に、ハイブリッド構造ルーター(900組の合成嗜好ペアを用いてDPOで微調整されたQwen2-7B-Instruct)が、入力された質問とそのドキュメントに最も適した5つの構造タイプのいずれかを予測します。第二に、分散知識構造化器(Qwen2-72B-Instruct)が、取得したチャンクを選択された形式に書き換えます。第三に、構造化知識活用器が質問をサブ質問に分解し、関連する構造化フラグメントを取得して、最終的な回答を生成します。5つの構造タイプは、表(統計的比較)、グラフ(マルチホップ・チェーン、ヘッド・リレーション・テールのトリプルとしてエンコード)、アルゴリズム(疑似コードとして記述される計画タスク)、カタログ(要約、階層的なナンバリング)、およびチャンク(単純なシングルホップ、デフォルトのRAGフォールバック)です。

著者は主に、財務報告書、法律事件、学術論文にまたがるマルチドキュメントQAベンチマークであるLoongベンチマーク(EMNLP 2024 Oral)で評価を行いました。入力は1万から25万トークンに及び、Spotlight Locating(重要箇所の特定)、Comparison(比較)、Clustering(クラスタリング)、Chain of Reasoning(推論の連鎖)の4つのタスクタイプをカバーしています。

主要なアイデア

  • DPOでトレーニングされたルーターは、構造タイプの選択において94.38%の精度に達しました。これに対し、Qwen2-72B-Instructによるゼロショットでは50.04%であり、ルーティングの決定が最も重要なコンポーネントであることがわかります。ルーターを除去すると、LLMの総合スコアは60.38から45.33に低下します。
  • 最も困難なドキュメント長(20万〜25万トークン)の階層において、StructRAGは51.42のスコアを記録しました。これは、ロングコンテキスト(28.92)やRAG(29.29)と比較して約22ポイントの差であり、コンテキストが長くなるほどその差は広がります。標準的な「すべてを詰め込む」アプローチが急激に劣化するのに対し、StructRAGはより緩やかに精度を維持します。
  • GraphRAGも構造を導入していますが、LoongでのLLM総合スコアは40.82であるのに対し、StructRAGは69.43でした。また、1クエリあたりの処理時間はGraphRAGの217.1分に対し、StructRAGは9.7分です。グローバルなナレッジグラフを事前に構築することは、オンデマンドで適切な形式を選択することよりも低速であり、精度も劣ります。
  • ポッドキャストの書き起こし(自由形式の要約)において、StructRAGはロングコンテキストに対して95.75%のペアワイズ勝率を達成しました。これは、構造化されていないソース素材であっても、構造化された合成がフルコンテキスト・アプローチを凌駕することを示唆しています。
  • 正解一致(EM)スコアは、LLMによる評価スコアよりも一貫して低くなっています。これは構造化によって表面的な語彙が変わるためです(例:「$1,308,463」が表のセル内で「138463」になるなど)。これにより系統的なトークンの不一致問題が発生し、自動評価で不利に働いています。

評価できる点と課題

核心となる結果は本物であり、アブレーション分析も明確です。ルーティングが最も重要であり、次に構造化、そして活用が続きます。長文ドキュメントにおける改善は最も強力な発見であり、20万トークンで22ポイントの差はノイズではありません。

とはいえ、3つの懸念があります。第一に、ベンチマークの範囲が限定的です。StructRAGはLoongとポッドキャストの書き起こしのみを報告しています。HotpotQA、2WikiMultiHopQA、MuSiQue、NQなどの標準的なマルチホップベンチマークが欠落しており、既存の膨大な検索研究とStructRAGを比較することが不可能です。ICLRの査読者もおそらくこれを指摘したはずですが、公開された論文に直接の回答はありません。

第二に、評価モデルがGPT-4である点です。「LLM-as-judge」によるスコアリングは、長さのバイアスや、構造化プロセスから出力された形式(特に評価者自身が同様の構造化テキストでトレーニングされている場合)を好むスタイル的な好みの影響を受けやすいです。EM指標はその補正となりますが、著者はそれを手法の問題ではなく指標の限界として構成しています。

第三に、StructRAGは強力なバックボーン(構造化器と活用器にQwen2-72B-Instruct)を使用してテストされています。利益のどれだけがルーティングによるもので、どれだけが単に強力なモデルを呼び出して書き換えと要約を行わせたことによるものかが不明確です。同等サイズの直接回答ベースラインとの比較があれば解決しますが、提示されていません。

金融AIにとっての重要性

Beancountの元帳は、「情報が散在している」問題の典型的な事例です。単一の照合の質問(例:「第3四半期に純資産が減少したのはなぜか?」)に答えるには、3つのアカウントの取引エントリを読み、貸借対照表レポートを参照し、多段階の修正チェーンを追跡する必要があります。これらはStructRAGの構造タイプとほぼ一対一で対応します。残高比較には表、取引チェーンにはグラフ、期間サマリーにはカタログといった具合です。

特にルーティングの知見は応用可能です。クエリに特化したBeancountエージェントは、常にチャンクをコンテキストに放り込むべきではありません。まず、回答にどのような「形状」が必要かを問うべきです。残高トレンドの質問には表が必要です。「この払い戻しチェーンを説明して」という質問にはグラフが必要です。「今年の支出を要約して」という質問にはカタログが必要です。たとえ小規模なモデルであっても、このルーティングの決定を明示的に組み込むことで、現在の元帳QAの試みを悩ませているハルシネーションや数値の取り違えを劇的に減らせる可能性があります。

また、217分対9.7分というレイテンシの話も実用上重要です。対話型のBeancountエージェントにとって、頻繁に更新される元帳に対してGraphRAGの事前インデックス作成コストは許容できません。StructRAGの推論時のアプローチは、書き込みが多く検索がまばらな元帳のユースケースに適しています。

注意点として、StructRAGの構造化器はクエリごとに大規模なLLM呼び出しを行います。長い元帳履歴の場合、その推論コストは無視できなくなる可能性があります。トークン効率の良い構造化(おそらく小規模な微調整済みモデルの使用)は、今後のエンジニアリング上の課題です。

次に読むべき文献

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — MicrosoftのGraphRAGはグローバルなクエリにコミュニティサマリーを使用します。StructRAGの推論時構造化がGraphRAGの事前インデックス作成に勝るポイントを理解することは、アーキテクチャのトレードオフを決定する鍵となります。
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — 階層的な表を含むXBRL提出書類で13のLLMをテストしています。StructRAGの表やカタログ構造が、Beancountの元帳に似た構造化された提出形式に転用できるかどうかの直接的なテストになります。
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — 実際の金融意思決定においてエージェントを評価しています。StructRAGの構造化推論が、単一ホップのQA精度を超えて、下流の意思決定品質に実際に役立つかどうかを測定できます。