「Financial Reporting」タグの記事が12件件あります

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V：金融領域における視覚的引用を伴うマルチモーダルRAG

FinRAGBench-V (EMNLP 2025) は、金融分野における視覚的引用を伴うマルチモーダルRAGのための初の大規模ベンチマークであり、11万2千ページ以上の文書と、人間がアノテーションした1,394組のQAペアを網羅しています。トップモデルでもブロックレベルの引用再現率はわずか20〜61%にとどまり、マルチモーダル検索はテキストのみの検索を約50パーセントポイント上回る結果となりました。

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE：LLMは期間横断および企業横断の財務分析にいかに失敗するか

Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈

FinDERは、S&P 500の10-K提出書類に対する5,703件の実際のヘッジファンドアナリストのクエリに基づいてRAGをベンチマークします。E5-Mistralのコンテキスト再現率はわずか25.95%にとどまり、略語の多いクエリでは適合率が8.2ポイント低下しました。これは、財務AIパイプラインにおいて、埋め込みの改善よりもクエリの正規化が優先的な解決策であることを示しています。

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA：完全なSEC提出書類における長文コンテキストの財務推論

DocFinQAは、FinQAの精選された700語のパッセージを、123,000語に及ぶ完全なSEC提出書類に置き換え、コンテキストを175倍に拡大しました。これにより、長文ドキュメントにおけるGPT-4の精度はほぼ半減します。検索パイプラインはHR@3で45%の確率で正しいチャンクの抽出に失敗し、長文コンテキストモデルもその代用にはなりません。

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLMによる実在のSEC XBRL監査タスクのスコアは14%未満

FinAuditingは、1,102件の実在するSEC XBRL提出事例を用いて13のLLMをゼロショットでテストしました。最高スコアは財務計算の検証で13.86%、コンセプト検索で12.42%にとどまりました。この結果は、外部ツールなしでAI会計ツールに自動化を任せられる範囲を直接的に制限するものです。

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: 財務表とテキストにおける離散的推論のために微調整されたLLaMA 2

TAT-LLMは、財務表とテキストのQAベンチマークにおいてLoRAを用いてLLaMA 2 7Bを微調整し、推論を決定論的な「抽出・推論・実行」のステップに分解することで、FinQAで64.60%のEM（厳密一致）を達成し、算術エラーを排除してGPT-4の63.91%を上回りました。

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: 多階層財務諸表における数値推論のベンチマーク

MultiHiertt (ACL 2022) は、1文書あたり平均3.89個の階層構造テーブルを含む実際の財務報告書から10,440組のQAペアを導入しました。最新モデルのF1スコアは人間の87%に対し38%に留まり、複数テーブルにまたがる質問では15ポイント低下します。これは財務AIが克服すべき検索精度のギャップを定量化しています。

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA：マルチターンの財務QAとモデル・専門家間にある21ポイントの格差

ConvFinQA (EMNLP 2022)は、FinQAをS&P 500の決算報告書に関するマルチターン対話へと拡張しました。その結果、最高精度の微調整済みモデルの実行精度は68.9%（人間の専門家は89.4%）であり、異なる財務トピック間で数値的な文脈を維持する必要があるハイブリッド・マルチアスペクト対話では52.4%まで低下することが明らかになりました。

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA：財務年次報告書の推論のための表・テキスト・ハイブリッド型QAベンチマーク

TAT-QAは、表とテキストが混在する財務報告書のコンテキストに基づいた16,552問のベンチマークです。財務AIにおける核心的なボトルネックは、計算能力ではなく「根拠の特定（グラウンディング）」であることを示しました。2024年までに、微調整された7B LLMはF1スコア83%に達し、人間の上限である91%との差を大幅に縮めています。

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA：財務レポートにおけるAIの数値推論を測定するベンチマーク

FinQA (EMNLP 2021) は、多段階の算術プログラムを必要とするS&P 500の決算報告書から8,281個のQAペアを構築しました。リリース時、ニューラルモデルのスコアは61%であったのに対し、人間の専門家は91%でした。3段階以上のプログラムでは精度が22%にまで急落します。ドメイン定数、クロスモダリティのグラウンディング、推論チェーンの長さといった失敗のパターンは、今日のBeancountエージェントが直面している課題に直結しています。

全てについて Financial Reporting