MultiHiertt: 多階層財務諸表における数値推論のベンチマーク
今月読んだ財務QAベンチマーク(FinQA、TAT-QA、ConvFinQA)はすべて、共通の暗黙の前提に基づいています。それは「1つのドキュメントに1つのフラットなテーブル」というものです。しかし、実際の財務報告書は全く異なります。連結貸借対照表では、親会社の中にセグメントがあり、さらにその中に子会社が入れ子状になっています。損益計算書には、それ自体が上位の集計値に反映される小計を含む階層的な行項目が存在します。MultiHiertt(Zhao et al., ACL 2022)は、まさにこのギャップを明らかにするために構築された初のベンチマークデータセットであり、そこから導き出された数字は厳しい現実を物語っています。
論文の概要
ペンシルベニア州立大学のYilun Zhao、Yunxiang Li、Chenying Li、Rui Zhangらは、2,513件の実際の財務報告書から抽出された10,440組の質問回答ペアによるQAベンチマーク、MultiHierttを提案しました。各ドキュメントには、平均3.89個の階層構造テーブルと、68文(約1,645語)の説明文が含まれています。学習/開発/テストの分割は7,830 / 1,044 / 1,566です。中心となる主張はシンプルかつ鋭いものです。従来のデータセット(FinQA、TAT-QA)は、単一のフラットなテーブルを持つドキュメントでモデルを評価していますが、これは実際の財務書類における推論の複雑さを組織的に過小評価しています。実際の書類では、計算プログラムを適用する前に、3つの異なるサブテーブルから数値を統合する必要がある場合があるからです。
データセットと共に、著者らは2段階モデルであるMT2Netを提案しています。まず、すべてのテーブルと段落から根拠となる候補セルやテキストスパンをスコアリングする「事実検索モジュール」があり、次に検索された事実に基づいて動作する「記号推論モジュール」(FinQAのNeRd設計を借用した算術プログラム実行器)が続きます。MT2Netは、エンコーダーとして一貫してRoBERTa-largeを使用しています。
主なポイント
- MultiHierttの1ドキュメントあたり平均3.89個のテーブルという数値は、実際の年次報告書の構造を直接反映しています。1つの質問に対して、損益計算書、セグメント別内訳表、脚注のスケジュールなど、いずれもフラットではない 複数の箇所から値を必要とする場合があります。
- MT2Net (RoBERTa-large) はテストセットで38.43%のF1スコアを達成しましたが、人間の専門家は87.03%であり、約49ポイントの差があります。
- 複数テーブル間推論の質問(2つ以上のテーブルからの証拠が必要なもの)は、最良のモデルで21.04%のF1スコアであり、単一テーブルの質問の36.77%と比較して、すでに低いベースラインからさらに15ポイント以上低下しています。
- 記号推論モジュールは役立ちますが、検索の失敗を補うことはできません。注釈調査によると、階層構造の例におけるエラーの31.5%は、算術計算を試みる前に誤った証拠セルを選択したことに起因しています。
- 2024年までに、Program-of-Thoughtsプロンプティングを用いた GPT-4 はMultiHierttで67.23%のF1スコアに達し、専用のEEDP(証拠強化ドキュメントプロンプティング)手法によりGPT-4は70.32%まで向上しましたが、依然として人間の上限より17ポイント低いです。
- アノテーションの品質は堅実です。アノテーター間のカッパ係数は0.72〜0.90で、クラウドワーカーによる正確性の評価では、サンプルの76.8%〜94.0%が5点満点中4点以上を獲得しています。
評価できる点と今後の課題
データセットの構築は丁寧であり、アノテーションの品質指標も信頼できるものです。「単一テーブルのベンチマークは実際の複雑さを過小評価している」という核心的な主張は明らかに正しく、単一テーブルと複数テーブルのサブセット間にある15ポイントのF1スコアの差がそれを具体化しています。比較表(論文の表1)は、FinQAとTAT-QAが1ドキュメントあたり1つのテーブルしか持たないことを明確に示しており、MultiHierttは真に現実のギャップを埋めています。
とはいえ、MT2Netは強力な解決策というよりは、強力なベースラインに近いものです。検索モジュールは、根拠となる事実に対する教師あり学習で訓練されたスパンレベルのスコアラーであり、訓練時に正確な教師信号があることに大きく依存しています。この論文では、スキャンされた書類や古いPDFによく見られるような、階層構造が暗黙的(明示的なHTMLの親子ネストがない)な場合に何が起こるかを評価していません。また、テストセットはCodaLabのリーダーボードで管理されているため、結果を独自に再現したり、失敗モードを詳細に調査したりすることが困難です。
また、著者らがあまり強調していない点も指摘しておきたいと思います。2024年のGPT-4の結果は、階層構造に特化したアーキテクチャがなくても、生の推論能力によってギャップの多くを埋められることを示しています。GPT-4は、ドキュメントに階層テーブルがあることを知らされることなく、レンダリングされたHTMLを読み取るだけで70%に到達しました。これは実は興味深い発見です。階層の認識は、圧倒的なコンテキスト容量や算術の信頼性ほど重要ではないのかもしれません。拘束条件となっているのは、推論アーキテクチャではなく、依然として長いドキュメントに対する検索精度である可能性があります。
財務AIにとっての重要性
Beancountのエージェントも、まさにこの問題に直面します。「2023年の実効税率は?」という質問には、損益計算書から税引前利益の行を、別の注記から法人税費用を、そして場合によっては連結数値を整合させるためのセグメントレベルの内訳を見つける必要があります。これらはどれも単一のフラットなテーブルには存在しません。MultiHierttにおける複数テーブル間推論の15ポイントのF1ペナルティは、Beancountの文脈でも予想される事態を定量化しています。つまり、単一の勘定科目クエリでは優秀に見えるエージェントも、元帳のセクションをまたいで結合する必要がある質問では、大幅に精度が低下するということです。
エラー分析は、そのまま対策に活用できます。もしエラーの31.5%が計算前の誤った根拠の検索であるなら、Beancountの書き戻しエージェントにとっての優先事項は、より優れた算術エンジンではなく、より優れた証拠セレクターです。計算を行う前に誤った元帳行を取得してしまうエージェントは、もっともらしく見えるが誤った仕訳を作成してしまいます。これこそが、監査で最も見つけるのが難しい失敗モードです。
GPT-4の進歩は短期的にも心強いものです。2年間で38%から70%に向上したことは、ドメイン固有の訓練がなくても、コンテキストウィンドウの拡大と推論能力の向上によって、複数テーブルにまたがる財務 推論が解決可能であることを示唆しています。しかし、人間のパフォーマンスとの残りの17ポイントの差はノイズではありません。それは、フラットなテキストレンダリングでは失われてしまう、階層構造が持つ意味的な重みを反映している可能性が高いのです。
次に読むべきもの
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — ほぼすべての財務QAシステムが構築されている基盤です。そのパラメトリックメモリと非パラメトリックメモリの分離を理解することは、元帳検索をどのように構造化するかを決定する上で重要です。
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — モデルが新しい事実が必要だと予測したときに、生成の途中で検索を実行します。これは、推論の途中で子会社のテーブルが必要だと気づくような、複数テーブル推論に自然に適合します。
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — FinQA/TAT-QA/MultiHierttでLLMを特化してファインチューニングし、ドメイン適応がGPT-4のプロンプティングに対して実際にどのようなメリットをもたらすかを示しています。
