FinRAGBench-V:金融領域における視覚的引用を伴うマルチモーダルRAG
FinRAGBench-V (EMNLP 2025) は、金融分野における視覚的引用を伴うマルチモーダルRAGのための 初の大規模ベンチマークであり、11万2千ページ以上の文書と、人間がアノテーションした1,394組のQAペアを網羅しています。トップモデルでもブロックレベルの引用再現率はわずか20〜61%にとどまり、マルチモーダル検索はテキストのみの検索を約50パーセントポイント上回る結果となりました。
FinRAGBench-V (EMNLP 2025) は、金融分野における視覚的引用を伴うマルチモーダルRAGのための 初の大規模ベンチマークであり、11万2千ページ以上の文書と、人間がアノテーションした1,394組のQAペアを網羅しています。トップモデルでもブロックレベルの引用再現率はわずか20〜61%にとどまり、マルチモーダル検索はテキストのみの検索を約50パーセントポイント上回る結果となりました。
EnterpriseArenaは、11種類のLLMを用いて、生存率、最終評価額、決算率を追跡する132ヶ月間のCFOシミュレーションを実施しました。Qwen3.5-9Bのみが実行の80%で生存し、GPT-5.4とDeepSeek-V3.1は0%でした。人間の専門家は100%の生存率を達成し、最終評価額はLLMの5倍に達しました。決定的なボトルネックは、LLMが時間の80%で帳簿の照合をスキップし、古い財務状態に基づいて行動していることです。
FinMCP-Benchは、65のMCPサーバーに裏打ちされた613の実世界金融ツール利用タスクにおいて、6つのLLMモデルを評価しました。最高モデルのマルチターンタスクにおける完全一致(exact match)スコアは3.08%であり、単一ツールからマルチターンシナリオへの移行に伴う20倍のパフォーマンス低下が明らかになりました。
学習不要な推論時の校正により、LLMのアテンションの重みから位置的バイアスを減算し、検索されたドキュメントがコンテキストの中央に埋もれている場合のRAG精度を最大15%回復。金融特化型エージェントパイプラインへの影響を解説。
Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。
NVIDIAとカリフォルニア工科大学によるGPT-4駆動のMinecraftエージェント「Voyager」は、永続的なコードスキルライブラリによって、ファインチューニングなしで真の生涯学習が可能であることを実証し、従来の最先端技術よりも3.3倍多くのアイテムを発見しました。このパターンは長期的なBeancount元帳の自動化に直接応用できますが、財務的な正確性を期すためには、ゲームのサンドボックスには不要なステージングレイヤーが必要となります。
AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。
CodeAct (ICML 2024)は、JSON形式のツール呼び出しを実行可能なPythonコードに置き換えることで、マルチツール・タスクにおけるGPT-4エージェントの成功率を約20ポイント向上させ、対話ターン数を30%削減します。これは、信頼性の高いBeancount照合エージェントの構築に直接的な影響を与えます。
CRITIC(ICLR 2024)は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。
ReAct (Yao et al., ICLR 2023) は、Chain-of-Thought(思考の連鎖)推論とツールのアクションを単一の軌跡に統合し、事実検証において純粋な CoT を、具現化タスクの模倣学習において 34 ポイント上回る成果を上げました。この分析では、検索による混乱や累積誤差といった論文の失敗モードを、Beancount 元帳へ書き戻しを行う自律型エージェントにとっての意味合いを含めて解説します。