MultiHiertt: 多階層財務諸表における数値推論のベンチマーク
MultiHiertt (ACL 2022) は、1文書あたり平均3.89個の階層構造テーブルを含む実際の財務報告書から10,440組のQAペアを導入しました。最新モデルのF1スコアは人間の87%に対し38%に留まり、複数テーブルにまたがる質問では15ポイント低下します。これは財務AIが克服すべき検索 精度のギャップを定量化しています。
MultiHiertt (ACL 2022) は、1文書あたり平均3.89個の階層構造テーブルを含む実際の財務報告書から10,440組のQAペアを導入しました。最新モデルのF1スコアは人間の87%に対し38%に留まり、複数テーブルにまたがる質問では15ポイント低下します。これは財務AIが克服すべき検索 精度のギャップを定量化しています。
FinanceBenchは、実際のSEC提出書類から抽出された10,231個の質問に対して16種類のAI構成を評価しました。共有ベクトルストアRAGの正解率はわずか19%であり、正解が含まれるパッセージを提示したGPT-4-Turboでさえ精度は85%にとどまりました。これは、エンタープライズ財務AIにとっての制約が検索ではなく数値推論であることを示しています。
FinMaster (arXiv:2505.13533)は、183の金融タスクにおいてo3-mini、Claude 3.7 Sonnet、DeepSeek-V3をベンチマーク評価しました。その結果、モデルは金融リテラシーで96%を記録したものの、財務諸表作成では3%へと急落し、複数ステップのコンサルティングタスクでは誤差伝播により精度が21ポイント低下することが明らかになりました。