メインコンテンツまでスキップ
Data Science

全てについて Data Science

40つの記事
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V:金融領域における視覚的引用を伴うマルチモーダルRAG

FinRAGBench-V (EMNLP 2025) は、金融分野における視覚的引用を伴うマルチモーダルRAGのための初の大規模ベンチマークであり、11万2千ページ以上の文書と、人間がアノテーションした1,394組のQAペアを網羅しています。トップモデルでもブロックレベルの引用再現率はわずか20〜61%にとどまり、マルチモーダル検索はテキストのみの検索を約50パーセントポイント上回る結果となりました。

WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか

WildToolBench (ICLR 2026) は、実際のユーザー行動から抽出された1,024のタスクで57のLLMを評価しました。15%のセッション精度を超えるモデルは存在せず、構成的オーケストレーション、隠れた意図、および指示の遷移が3つの顕著な失敗モードとして特定されました。

LLMの信頼度とキャリブレーション:研究が実際に示していることの調査

LLMの信頼度推定とキャリブレーション手法(ホワイトボックスのロジットアプローチ、一貫性ベースのSelfCheckGPT、意味論的エントロピー)に関する体系的な調査により、GPT-4による言語化された信頼度スコアはAUROC約62.7%にとどまり、偶然をわずかに上回る程度であることが明らかになりました。これは、金融や会計において不確実性を認識するエージェントを導入する上で直接的な影響を及ぼします。

FinToolBench:実世界の金融ツール活用におけるLLMエージェントの評価

FinToolBenchは、760のライブ金融APIツールと295の実行可能なクエリを組み合わせ、実世界の金融タスクにおけるLLMエージェントのベンチマークを行います。GPT-4oは保守的な呼び出し率(TIR 22.7%)ながら高い回答品質(CSS 0.670)を示す一方、Qwen3-8Bは積極的(TIR 87.1%)ですが、全モデルで意図の不一致(intent mismatch)が50%を超えることが判明しました。

OmniEval: 金融分野向け全方位型RAG評価ベンチマーク

OmniEval (EMNLP 2025) は、11,400件の自動生成テストケースを用いて、5つのタスクタイプ × 16の金融トピックにわたるRAGシステムを評価します。最良のシステムでも数値の正確性は36%に留まっており、RAGパイプラインが構造化された金融帳簿に書き込む前に検証レイヤーを必要とすることを示す具体的な証拠となっています。

LLM異常検知サーベイ (NAACL 2025):強力な分類体系、欠如した表形式データへの対応

Xu氏とDing氏によるLLMベースの異常検知およびOOD検知に関するNAACL 2025サーベイの批判的読解。「検知 vs 生成」の分類体系は有効ですが、表形式データへの対応がほぼ皆無であるため、金融AIの実務家はビジョンモデルからの知見を自ら統合する必要があります。

Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善

学習不要な推論時の校正により、LLMのアテンションの重みから位置的バイアスを減算し、検索されたドキュメントがコンテキストの中央に埋もれている場合のRAG精度を最大15%回復。金融特化型エージェントパイプラインへの影響を解説。

Fin-RATE:LLMは期間横断および企業横断の財務分析にいかに失敗するか

Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。

FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈

FinDERは、S&P 500の10-K提出書類に対する5,703件の実際のヘッジファンドアナリストのクエリに基づいてRAGをベンチマークします。E5-Mistralのコンテキスト再現率はわずか25.95%にとどまり、略語の多いクエリでは適合率が8.2ポイント低下しました。これは、財務AIパイプラインにおいて、埋め込みの改善よりもクエリの正規化が優先的な解決策であることを示しています。

Lost in the Middle:LLMにおける位置バイアスと金融AIへの影響

LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。