メインコンテンツまでスキップ

FinQA:財務レポートにおけるAIの数値推論を測定するベンチマーク

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

FinanceBenchは先週、財務QAにおいて難しいのは検索ではなく、数値推論であることを示しました。EMNLP 2021で発表されたFinQAは、その理由を確立した論文です。今この論文を読むのは、これが財務算術の基礎的なベンチマークであり、この分野のその後のすべての研究がこれを拡張するか、これと比較して評価を行っているからです。また、モデルがどこで失敗するかを理解することは、現在のBeancountエージェントがどこで失敗するかを理解することにも繋がります。

論文について

2026-05-13-finqa-numerical-reasoning-financial-data

カリフォルニア大学サンタバーバラ校、J.P.モルガン、AmazonのZhiyu Chen氏、Wenhu Chen氏らは、FinQA: A Dataset of Numerical Reasoning over Financial Data (arXiv:2109.00122, EMNLP 2021) を発表しました。核となるタスクは、文章による記述と1つ以上の財務諸表(テーブル)の両方を含む決算報告書が与えられたとき、両方のモダリティから抽出された事実に基づき、多段階の算術演算を必要とする質問に答えることです。答えは、抽出された値に適用される最大5つの演算(加算、減算、乗算、除算、比較、テーブル集計など)のシーケンスである、明示的な数値プログラムを通じて導き出される必要があります。

米国の11人の金融専門家(公認会計士、MBA)が、1999年から2019年までのS&P 500の決算報告書2,789ページから手作業でデータセットを構築しました。最終的なデータセットには、正解の裏付けとなる事実と完全な推論プログラムが付与された8,281個のQAペアが含まれており、完全に実行可能で監査可能なものとなっています。

主要なポイント

  • リリース時の格差は残酷なほど大きい。 著者らが投入できた最高のニューラルモデルであるFinQANet (RoBERTa-large) は、テストセットで実行精度61.24%、プログラム精度58.86%に達しました。対照的に、人間の金融専門家のスコアは91.16%と87.49%でした。非専門家のクラウドワーカーはわずか50.68%にとどまりました。これはニューラルモデルのベースラインをわずかに上回る程度であり、このドメインには単なる読解力だけでなく、本物の専門知識が必要であることを示しています。
  • 多段階推論で全てが崩壊する。 3段階以上の推論ステップを必要とするプログラムでは、FinQANetの精度は22.78%にまで急落します。モデルは2段階の算術演算までは合理的に処理できますが、それ以上になるとエラーが蓄積していきます。
  • クロスモダリティの質問が難関である。 テーブルと文章の両方に証拠がまたがる質問の精度は43.80%で、全体平均を約17ポイント下回っています。テーブルの段落にある数値をテキスト内の修飾語と結びつける(グラウンディングする)ことは、標準的な事前学習済みモデルが得意とすることではありません。
  • ドメイン定数が静かなる暗殺者となる。 プログラムのステップに、文書内に記載されていることではなく、金融界の慣習(例えば、100万の中には1,000の「1,000」がある、あるいは1ベーシスポイントは0.01%であるなど)としての定数が必要な場合、精度は43.88%に低下します。モデルは「この数字は文書内にある」のか「この数字は一般的知識である」のかを確実に見分けることができません。
  • エラーの約50%はドメイン知識の不足に起因しており、検索の失敗や算術実行のエラーではありません。モデルは正しい事実を見つけ出したものの、誤った金融ロジックを適用してしまいました。
  • その後のLLMは格差を大幅に縮めたものの、解消には至っていない。 GPT-4のFinQAにおける実行精度は約76%と報告されており、2024年までのタスク特化型SOTAシステムは約89%に達していますが、依然として人間の専門家のパフォーマンス(91%以上)を下回っています。

何が有効で、何が課題か

ベンチマークの設計は健全です。自由形式の回答ではなく、実行可能なプログラムを使用するのは正しい判断です。モデルを曖昧さなく採点でき、単に正解したかどうかだけでなく、どのように推論したかを知る窓口が得られるからです。テーブルとテキストの両方の証拠を要求するという決定は、テーブルが数値を与え、脚注がその数値の意味を説明するという、現実世界の財務分析を反映しています。

とは言え、このタスクは見かけよりも範囲が限定的です。定義済みの演算DSLは標準的な財務算術をカバーしていますが、「この支出は経常的なものか、単発のものか」といった分類の判断や、「このキャッシュフローは予算ポリシーに準拠しているか」といったポリシーチェック、あるいは市場データや会計基準の外部検索を必要とする事柄を表現することはできません。プログラムは正確で説明可能ですが、それらは不確実性が「判断」ではなく「計算」にのみ存在する世界に留まっています。

また、検索の設定において、学習中にモデルに正解の裏付け事実を与えてしまうため、数字が実力以上に良く見えてしまいます。実際の運用では、プログラムを実行する前に、長い文書から正しいテーブルセルを検索する必要があり、先週のFinanceBenchが示したように、その検索ステップは決して些細なことではありません。

最後に、2021年の結果は現在のモデルの能力を過小評価しています。61%というベースラインはChatGPT以前のものです。GPT-4の約76%やSOTAの約89%という数字は、Chain-of-Thought(思考の連鎖)、コード実行、微調整を組み合わせた専門的なパイプラインによるものです。人間の専門家(91%以上)との差は縮まりましたが、依然として存在します。

なぜこれが金融AIにとって重要なのか

Beancountの帳簿は、本質的には簡略化された決算報告書です。取引ノート、支払先フィールド、勘定科目の階層にテキストのメタデータを持つ、構造化された借方と貸方の行の集まりです。FinQAベンチマークがテストするすべてのスキルは、Beancountエージェントが行わなければならないことに直接対応しています。

特に、クロスモダリティの失敗パターンは重要です。Beancountの文脈では、エージェントは帳簿内の取引金額、価格ディレクティブ内の外貨レート、そしてノートフィールド内のコメントを目にするかもしれません。そして、正しい報告通貨の値を計算するためには、これら3つすべてが必要になります。FinQAが2021年にテストしたモデルは、これらのソースを確実に相互参照することができませんでした。現在のLLMはより優れた性能を示しますが、3段階以上のステップを伴うプログラムでの精度22.78%という数字は警告です。推論チェーンの長さは現実的な失敗の軸であり、多段階の帳簿照合タスクにおいてはこの問題に直面することになるでしょう。

ドメイン定数の問題も一般化できます。会計には、複式簿記の不変条件、勘定科目の性質、会計年度の境界など、モデルが明示されずとも知っておくべき独自の慣習があります。FinQAのエラー分析が約50%のドメイン知識の失敗を示していることは、Beancountエージェントには単なる帳簿のエントリだけでなく、会計慣習に関する微調整、あるいは会計規則のための明示的な検索レイヤーが必要であることを示唆しています。

ベンチマークのプログラム表現は、制約はあるものの、Beancountエージェントが推論をどのように表現すべきかという方向性も示しています。それは、曖昧になりがちな自然言語ではなく、チェックやロールバック、監査が可能な実行可能な演算であるべきだということです。

次に読むべきもの

  • TAT-QA (arXiv:2105.07624, ACL 2021) — ハイブリッドなテーブル+テキストの設定を、より多様な推論タイプを含む16,552の質問に拡張しています。導入されているTAGOPモデルは、両方のモダリティから共同でスパン抽出を処理する方法として研究に値します。
  • ConvFinQA (arXiv:2210.03849, EMNLP 2022) — FinQAの対話型拡張であり、各ダイアログにはターンをまたいだ数値の依存関係があります。このマルチターンの構造は、ユーザーのフォローアップにわたって計算を追跡しなければならない対話型Beancountアシスタントに直接対応します。
  • MultiHiertt (arXiv:2206.01347, ACL 2022) — 1つの文書に複数の階層型テーブルが含まれる財務報告書へと設定を推し進めています。これは、Beancountエージェントが直面することになる連結財務諸表や複数年にわたる帳簿ビューに向けた必要なステップです。