メインコンテンツまでスキップ

Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

Liuらによる当初の発見に関するログを書いて以来、私は「ロスト・イン・ザ・ミドル(lost-in-the-middle)」問題について考え続けてきました。LLMに長いコンテキストを渡すと、中央に埋もれた証拠を確実に無視するという問題です。「Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization」(Hsieh et al., ACL Findings 2024, arXiv:2406.16008)は、私がこれまで見てきた中で最も直接的で実用的な解決策を提示しています。それは、訓練不要で推論時に適用可能な校正手法であり、モデルのアテンションの重みから位置的バイアスを減算することで、RAGの精度を最大15%回復させます。

論文の概要

2026-07-02-found-in-the-middle-calibrating-positional-attention-bias

Hsiehらは、診断的な観察から議論を始めています。LLMは、たとえロングコンテキストで訓練されていても、持続的な「U字型」のアテンションパターンを示します。入力の最初と最後にあるトークンは、関連性に関係なく不当に高いアテンションを受け取り、一方で中央のトークンは系統的に過小評価されます。著者らはこれを、単なる別個の現象としてではなく、ロスト・イン・ザ・ミドルの精度低下と経験的に結びつけています。

彼らの解決策は、コンセプトにおいて非常にエレガントです。彼らはアテンションを2つの加算的な要素、つまり「関連性」(私たちが望むもの)と「位置的バイアス」(私たちが望まないもの)に分解しました。バイアス項を分離するために、彼らは各位置に情報のない「ダミー」ドキュメント(フィラーコンテンツ)を配置した同じコンテキストをモデルに渡し、その結果得られるアテンション分布を記録します。そのダミードキュメントのアテンションは、純粋な位置的事前分布(prior)を近似します。これを実際のアテンションスコアから差し引くことで、真の関連性をより良く反映した残差が得られます:

校正済みアテンション = Attn(ドキュメント, k) − Attn(ダミー, k)

再スケーリングされたスコアは、最終的な回答生成ステップの前に、検索されたドキュメントの再ランク付けや重み付けに使用されます。重要なのは、訓練が一切不要である点です。校正は推論時に、最後の16個のデコーダーレイヤーとすべての全アテンションヘッドに適用されます。コストはO(K)の追加フォワードパス(Kは検索されたドキュメント数)であり、無視はできませんが予測可能です。

主要なアイデア

  • U字型のアテンションバイアスはモデルアーキテクチャに固有のものであり、ロングコンテキストを目的として明示的に訓練されたモデルであっても持続する。
  • 同じ検索コンテキストにダミー(空またはノイズ)ドキュメントを流すことで、位置的事前分布を分離できる。これを差し引くことで、ファインチューニングなしでバイアスを除去できる。
  • NaturalQuestion(K=20、正解ドキュメントを中央に配置)におけるRecall@3は、校正によって20.52%から68.32%に急上昇した。K=10の場合、36.38%から74.27%に上昇した。
  • 正解ドキュメントがコンテキスト中央にある場合、エンドツーエンドのQA精度が6〜15ポイント向上した。この改善は24の実験設定のうち22で確認された。
  • この手法は、バニラアテンション、クエリ生成ランキング、関連性生成プロンプティング、アテンションソーティング(Peysakhovich & Lerer 2023)、プロンプト並べ替え、LongLLMLingua-rkという6つの比較ベースラインを上回った。
  • 評価は、NaturalQuestion(Wikipediaに基づく2,655件の実際のクエリ)とSynthWiki(GPT-4で生成された990件の合成エントリ)で行われた。

評価できる点と懸念点

核となる結果は驚くべきものであり、信頼に足ると考えられます。コンテキスト中央に正解がある場合のRecall@3における20.52%から68.32%への飛躍は、精査によって消えてしまうような数字ではありません。これはアテンションがどのように分布しているかについて、実在する何かを測定しています。訓練不要の設計は実用面で大きな利点です。モデルの重みをいじることなく、既存のRAGパイプラインの上にこれを組み込むことができます。

とはいえ、いくつか保留したい点もあります。第一に、「ダミードキュメント」アプローチは、位置的バイアスがおおよそ位置ごとに分離可能で加算的である(線形分解)と仮定していますが、これは著者自身も単純化しすぎている可能性があると指摘しています。実際のアテンションバイアスは、コンテンツと非線形に相互作用している可能性があります。第二に、O(K)の追加フォワードパスは「許容可能」とされていますが、遅延やコストに関するベンチマークは示されていません。K=20の検索を行う本番システムでは、1クエリにつき1回ではなく21回のフォワードパスを実行することになります。数百件の取引をトリアージするBeancountエージェントにとって、この倍率は重要です。

第三に(これが最も興味深い制限ですが)、著者らは位置的バイアスが特定のタスクには実際に有用である可能性を指摘しています。例えば「リーセンシーバイアス(新しさへの偏向)」は、モデルが古いエントリよりも最近の帳簿エントリを正しく重視するのに役立っているかもしれません。バイアスを無差別に除去すると、位置が有効な信号となるタスクに悪影響を与える可能性があります。これについては認められてはいるものの、研究はされていません。

最後に、実験にはNaturalQuestionと合成データセットが使用されています。金融固有のドキュメント(高密度の表、複数年にわたる申告書、繰り返しの構造を持つ帳簿エントリ)は、オープンドメインのWikipediaの記事とは大きく異なります。金融RAGで有効であると断定する前に、それらのデータ分布で校正を検証する必要があります。

なぜこれが金融AIにとって重要なのか

直接的な関係は明らかです。DocFinQA以来のすべてのログは、同じ問題を巡っています。Beancountエージェントが「3月分を銀行明細と照合して(reconcile)」といった質問に答えるために20件の関連する元帳エントリ(ledger entries)を取得したとき、検索ウィンドウの中央にあるエントリは、コンテキストの最初や最後のエントリに比べて系統的にアテンションが不足します。これは検索の失敗ではなく、生成側の失敗であり、検索ランキングをいくら改善しても解決しません。

「Found in the Middle」の校正は、基礎となるモデルの再訓練を必要とせず、あらゆる帳簿QAパイプラインの生成ステップに直接適用できる、説得力のある緩和策です。O(K)のコストに関する懸念は現実的ですが、管理可能です。中規模のモデルで20ドキュメントの検索ウィンドウであれば、実用的な範囲内です。導入前に確認したいのは、特にBeancount構造のデータにおける検証です。位置補正は一律に役立つのか、それとも、古い取引よりも最近の取引を信頼させるリーセンシー信号を意図せず抑制してしまうのか、という点です。

アテンションメカニズムがコンテンツの関連性とは無関係に位置的事前分布をエンコードしており、それらの事前分布は再訓練なしで校正可能であるという広範な原理は、心に留めておく価値があります。これは、トークン頻度バイアス、入力長の正規化、生成時のおしゃべり(verbosity)バイアスなど、他のバイアスに対する同様の校正への道を開くものです。

次に読むべきもの

  • 「Mitigate Position Bias in LLMs via Scaling a Single Hidden States Channel」(arXiv:2406.02536, ACL Findings 2025) — アテンションスコアを差し引くのではなく、単一の隠れ状態の次元をスケーリングすることを提案。Found in the Middleのアプローチと直接比較する価値があります。
  • 「Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey」(arXiv:2409.01980, NAACL 2025) — 読書リストの次にあるもの。AnoLLM、CausalTAD、AD-LLMの流れを統合された分類法にまとめています。
  • Liu et al., 「Lost in the Middle: How Language Models Use Long Contexts」(arXiv:2307.03172, TACL 2023) — Found in the Middleが対応している元の診断。不可欠な背景知識です。