Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善
学習不要な推論時の校正により、LLMのアテンションの重みから位置的バイアスを減算し、検索されたドキュメントがコンテキストの中央に埋もれている場合のRAG精度を最大15%回復。金融特化型エージェントパイプラインへの影響を解説。
学習不要な推論時の校正により、LLMのアテンションの重みから位置的バイアスを減算し、検索されたドキュメントがコンテキストの中央に埋もれている場合のRAG精度を最大15%回復。金融特化型エージェントパイプラインへの影響を解説。
ReDActは、デフォルトで小規模モデルを実行し、トークンレベルのパープレキシティが不確実性を示した場合にのみ高価なモデルへとエスカレーションします。これにより、GPT-5.2単体と比較して、精度を維持または向上させつつ64%のコスト削減を実現します。これはBeancountの取引分類エージェントに直接応用可能なパターンです。
OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。
Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。
FinDERは、S&P 500の10-K提出書類に対する5,703件の実際のヘッジファンドアナリストのクエリに基づいてRAGをベンチマークします。E5-Mistralのコンテキスト再現率はわずか25.95%にとどまり、略語の多いクエリでは適合率が8.2ポイント低下しました。これは、財務AIパイプラインにおいて、埋め込みの改善よりもクエリの正規化が優先的な解決策であることを示しています。
LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。
AD-LLMは、5つのNLPデータセットにおいて、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーの3つの異常検知ロールにわたり、GPT-4oとLlama 3.1 8Bをベンチマークしました。GPT-4oはゼロショットでAUROC 0.93~0.99に達しましたが、LLMベースのモデル選択には依然として信頼性がなく、財務監査AIに直接的な影響を及ぼします。
CausalTADは、シリアライズ前に因果関係に従ってテーブルの列を並べ替えることで、LLMベースのテーブルデータ異常検知を改善します。混合型ベンチマークにおいて平均AUC-ROCをAnoLLMの0.803から0.834へと向上させ、構造化された元帳データの異常検知に直接的な影響を与えます。
AnoLLM(ICLR 2025)は、テーブルデータの異常検知をLLMの密度推定として再定義します。正常な行でファインチューニングを行い、負の対数尤度によってスコアリングします。混合型の不正データセットでは従来の手法を上回りますが、純粋な数値データでは優位性はなく、Beancountのレジャーエントリにおける異常検知に実用的な示唆を与えます。
LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。