FinAuditing: LLMによる実在のSEC XBRL監査タスクのスコアは14%未満
FinAuditingは、財務NLPのリーダーボードを占めている洗練されたQ&Aペアではなく、実在するSEC XBRL提出書類の構造的複雑さに対してLLMをベンチマークします。私が今これを読んでいるのは、Bean Labsの監査アジェンダが、既存のベンチマークでは答えられない問いに立ち戻り続けているからです。すなわち、「モデルは構造化された提出書類全体をメモリに保持し、その内部整合性を検証できるか?」という問いです。
論文の概要
WangらによるFinAuditingは、SEC EDGARの218件のXBRL提出書類から抽出された1,102件のインスタンス(XBRL USデータ品質委員会(DQC)がカタログ化したエラータイプを網羅)のベンチマークを紹介しています。XBRLは、SECがすべての公開企業に義務付けている機械読み取り可能な形 式です。各提出書類には、インスタンス文書(報告数値)、タクソノミ・スキーマ(有効な会計コンセプト)、および4つのリンクベース(計算、表示、定義、ラベル)が含まれ、コンセプト間の関係を指定しています。このベンチマークは、3つの監査サブタスクを運用化しています:財務セマンティック・マッチング(FinSM、報告された事実に対して正しいタクソノミ・コンセプトを検索する)、財務関係抽出(FinRE、2つのタクソノミ・ノード間の関係を分類する)、および財務数学的推論(FinMR、報告された数値がタクソノミで定義された計算規則を満たしているか検証する)です。インスタンスの平均トークン数は33,848であり、これは多くのオープンソース・モデルの実効コンテキスト制限と同等か、それを超えています。全13モデルがゼロショットでテストされました。
主な知見
- FinSMは本質的にタクソノミの検索です。提出書類内の事実が与えられたとき、正しいUS-GAAPコンセプトを見つけ出します。DeepSeek-V3がHit Rate@20で12.42%と首位に立ちましたが、これは20の候補から選ぶ際、正解率が8回に1回未満であることを意味します。GPT-4oは9.09%でした。
- FinRE(リンクベースの関係分類)は最も簡単なタスクです。GPT-4oは精度91.82%、Macro F1で90.09に達しました。しかし、財務能力を謳っているQwen3-32BとFino1-14Bは、どうやらCombinationErr関係タイプで崩壊し、スコアは0.00%でした。
- FinMRは過酷です。Fino1-14Bが精度13.86% でリードしていますが、ほとんどのモデルは一桁台にとどまっています。エラー分析によると、失敗の70〜83%は多段階の計算規則にわたる算術ミスに起因し、モデルによっては構造的フォーマット・エラーが9〜71%を占めています。
- ソースデータは、2020年から2024年の実在する提出書類からの4,545件のDQCエラーメッセージであり、合成された敵対的サンプルではありません。ベンチマークは最も頻繁な9つのエラータイプを選択しており、これは実世界のDQC違反の60.33%をカバーしています。
- ドメイン特化型モデル(Fino1-14B, FinR1)が汎用大規模モデルを体系的に凌駕することはありませんでした。Fino1-14BがリードしたのはFinMRのみであり、そこでも13.86%という数値はノイズをわずかに上回る程度です。
評価と課題
このベンチマークが価値あるものである理由は、まさにQ&Aペア形式から脱却しているからです。成功には、単なるテキストスパンの照合ではなく、リンクベースの関係性の理解が求められます。インスタンス構築をDQC違反に基づかせることで、再現性があり、実際の監査プロセスに直接結びついたものになっています。
とはいえ、いくつか保留事項もあります。FinREの結果は不可解です。GPT-4oが91.82%である一方で、ドメイン能力のあるモデルが0.00%に崩壊しているという差異は、真の推論能力というよりも、プロンプトへの感度や出力フォーマットの不一致を反映している可能性が極めて高いです。この論文では、プロンプト形式の検証やフューショット(few-shot)のベースラインを提供せずに、すべてのモデルをゼロショットでテストしており、0.00%というスコアが知能によるものかパースの失敗によるものかを判断できません。FinMRで使用されているLLM-as-judgeフレームワークも、評価にさらなるノイズを加えています。
「階層的なマルチドキュメント構造において精度が60〜90%低下する」という主要な主張も、より明確な基準が必要です。これが人間のパフォーマンスと比較しているのか、同じタスクのシングルドキュメント版、あるいはフラット化された(非階層的な)バリアントと比較しているのかが不明確です。方向性は正しいですが、ベースラインがなければ、その規模を解釈するのは困難です。
財務AIにとっての重要性
BeancountファイルはXBRLではありませんが、主要な構造的特性を共有しています。タクソノミ・スキーマに類似した階層的な勘定科目名空間、計算リンクベースに類似したバランス調整が必要な複式簿記の制約、そしてコンセプトとインスタンスのマッチングに類似した、正規のカテゴリを参照する型付きエントリです。FinMRの失敗モード(多段階の計算規則にわたる算術ミス)は、まさにBeancountの残高検証において重要となる問題です。もしGPT-4oがXBRL提出書類におけるUS-GAAPの加算ツリーが正しく合計されているかを確実に検証できないの であれば、外部ツール(PAL方式など)に算術をオフロードせずに、元帳内の複雑な勘定科目階層を検証することを任せることは、まず不可能です。
FinSMの数値は、ユーザーが入力した勘定科目名や取引の説明を標準的な勘定科目表にマッピングするBeancountエージェントにとって、直接的な警告となります。最高のモデルであっても、ランク20以内で正しいコンセプトを検索できる確率は13%未満です。ランキングベースの検索は、専用のレトリーバーやターゲット・タクソノミへの微調整なしには、到底実用レベルにはありません。
ドメイン特化型モデルが結果を出せなかったことは示唆に富んでいます。この種の構造化推論タスクにおいては、財務的な事前学習よりも、生のスケールと構造化されたプロンプトが依然として結果を左右します。
次に読むべき資料
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — 階層的なXBRLリンクベース構造は、まさにMicrosoftのGraphRAGがターゲットとする「ドキュメントをまたぐグラフ」の一種です。FinAuditingの検索失敗に対するアーキテクチャ上の回答として読む価値があります。
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — 同じ著者陣によるもので、財務上の事実をタクソノミ・コンセプトにマッピングすること(監査の上流タスク)に焦点を当てており、FinAuditingの範囲を補 完します。
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — もしモデルがゼロショットで計算を確実に検証できないのであれば、その答えはプロンプトの改善ではなく、エージェントのアクションの上に重ねられた形式手法による検証ツールにあるかもしれません。