Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善
Liuらによる当初の発見に関するログを書いて以来、私は「ロスト・イン・ザ・ミドル(lost-in-the-middle)」問題について考え続けてきました。LLMに長いコンテキストを渡すと、中央に埋もれた証拠を確実に無視するという問題です。「Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization」(Hsieh et al., ACL Findings 2024, arXiv:2406.16008)は、私がこれまで見てきた中で最も直接的で実用的な解決策を提示しています。それは、訓練不要で推論時に適用可能な校正手法であり、モデルのアテンションの重みから位置的バイアスを減算することで、RAGの精度を最大15%回復させます。
論文の概要
Hsiehらは、診断的な観察から議論を始めています。LLMは、たとえロングコンテキストで訓練されていても、持続的な「U字型」のアテンションパターンを示します。入力の最初と最後にあるトークンは、関連性に関係なく不当に高いアテンションを受け取り、一方で中央のトークンは系統的に過小評価されます。著者らはこれを、単なる別個の現象としてではなく、ロスト・イン・ザ・ミドルの精度低下と経験的に結びつけています。
彼らの解決策は、コンセプトにおいて非常にエレガントです。彼らはアテンションを2つの加算的な要素、つまり「関連性」(私たちが望むもの)と「位置的バイアス」(私たちが望まないもの)に分解しました。バイアス項を分離するために、彼らは各位置に情報のない「ダミー」ドキュメント(フィラーコンテンツ)を配置した同じコンテキストをモデルに渡し、その結果得られるアテンション分布を記録します。そのダミードキュメントのアテンションは、純粋な位置的事前分布(prior)を近似します。これを実際のアテンションスコアから差し引くことで、真の関連性をより良く反映した残差が得られます:
校正済みアテンション = Attn(ドキュメント, k) − Attn(ダミー, k)
再スケーリングされたスコアは、最終的な回答生成ステップの前に、検索されたドキュメントの再ランク付けや重み付けに使用されます。重要なのは、訓練が一切不要である点です。校正は推論時に、最後の16個のデコーダーレイヤーとすべての全アテンションヘッドに適用されます。コストはO(K)の追加フォワードパス(Kは検索されたドキュメント数)であり、無視はできませんが 予測可能です。
主要なアイデア
- U字型のアテンションバイアスはモデルアーキテクチャに固有のものであり、ロングコンテキストを目的として明示的に訓練されたモデルであっても持続する。
- 同じ検索コンテキストにダミー(空またはノイズ)ドキュメントを流すことで、位置的事前分布を分離できる。これを差し引くことで、ファインチューニングなしでバイアスを除去できる。
- NaturalQuestion(K=20、正解ドキュメントを中央に配置)におけるRecall@3は、校正によって20.52%から68.32%に急上昇した。K=10の場合、36.38%から74.27%に上昇した。
- 正解ドキュメントがコンテキスト中央にある場合、エンドツーエンドのQA精度が6〜15ポイント向上した。この改善は24の実験設定のうち22で確認された。
- この手法は、バニラアテンション、クエリ生成ランキング、関連性生成プロンプティング、アテンションソーティング(Peysakhovich & Lerer 2023)、プロンプト並べ替え、LongLLMLingua-rkという6つの比較ベースラインを上回った。
- 評価は、NaturalQuestion(Wikipediaに基づく2,655件の実際のクエリ)とSynthWiki(GPT-4で生成された990件の合成エントリ)で行われた。