メインコンテンツまでスキップ

TAT-QA:財務年次報告書の推論のための表・テキスト・ハイブリッド型QAベンチマーク

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

今日TAT-QAを読んでいるのは、それが私たちが構築しているものに直接関係する交差点、つまり表とその周囲のテキストを同時に推論しなければ答えられない質問という領域に位置しているからです。Beancountにおいて、すべての元帳エントリはコンテキストの中に存在します。それは、摘要(memo)や相手方のナラティブ、あるいはなぜその項目がそこにあるのかを説明する勘定科目ポリシーがなければ意味をなさない一つの表の行のようなものです。シンガポール国立大学(NUS)のNExT++ラボのZhuらによってACL 2021で発表されたTAT-QAは、NLPコミュニティにこの問題に正面から取り組むことを強いたベンチマークです。

論文の概要

2026-05-14-tat-qa-ハイブリッド-表-テキ�スト-財務質問応答

Fengbin Zhu、Wenqiang Lei、Youcheng Huang、Chao Wang、Shuo Zhang、Jiancheng Lv、Fuli Feng、Tat-Seng Chuaらは、実際の財務年次報告書から抽出された2,757のハイブリッド・コンテキストに基づく16,552問のデータセットであるTAT-QA(Tabular And Textual QA)を提案しました。各コンテキストは、半構造化された表と少なくとも2つの付随する段落で構成されています。これは、収益表の横に経営陣による数値の変動要因の議論が並ぶ10-K(有価証券報告書相当)のような構造そのものです。ほぼすべての質問が、加算、減算、乗算、除算、カウント、比較、ソート、および複合演算といった算術演算を必要とします。

主な貢献は2点あります。ベンチマークそのものと、タスクをエビデンス(根拠)のタグ付けとそれに続くシンボリック推論として扱う新しいモデル「TAGOP」です。TAGOPは、連結された表のセルとテキストスパンに対してシーケンスタガーを使用し、収集すべきエビデンスを特定します。その後、固定された集計演算子セット(合計、差、積、比率、カウントなど)を適用して最終的な回答を算出します。ニューラルネットワークによる直接の計算は行わず、計算自体は常にシンボリック・エグゼキューター(記号実行器)に委ねられます。

主要なアイデア

  • エビデンスの特定が難所であり、算術演算ではない。 TAGOPの誤り分析によると、失敗の原因の約55%が不正確なタグ付け、29%がエビデンスの欠落に起因しています。正しいセルとスパンさえ特定できれば、シンボリック・エグゼキューターが計算ミスをすることは稀です。これは財務エージェントにとって、情報の検索とグラウンディング(根拠付け)のステップが支配的であることを示す直接的なシグナルです。
  • テキスト専用モデルは即座に失敗する。 BERT-RCのテストセットでのF1スコアはわずか18.7%です。TAT-QA以前の最高数値読解モデルであるNumNet+ V2は46.9%に留まります。表専用のTaPasベースラインは22.8%です。テキストなしで表を読む、あるいは表なしでテキストを読むモデルはこのドメインでは通用しません。
  • TAGOPのF1スコアは58.0%(完全一致50.1%)、人間の専門家は90.8%(完全一致84.1%)。 発表当時の32.8ポイントというF1スコアの差は驚くべきものでした。これは、2021年時点の最高のシステムでも、訓練を受けたアナリストが処理できる質問の3分の2以下しか答えられないことを意味していました。
  • 2024年末までに、リーダーボードは異なる様相を呈している。 トップシステムのTAT-LLM (70B) はF1スコア88.4%に達し、人間との差はわずか2.4ポイントになりました。TAT-LLM (7B) は82.88%、ゼロショットのGPT-4は79.71%に達しています。この差は、主にLLM規模の微調整によって劇的に縮まりました。
  • 特化型の微調整は依然として素のGPT-4を上回る。 TAT-LLM 7B (完全一致74.56%) は、パラメータ数がわずかであるにもかかわらず、TAT-QAにおいてGPT-4ゼロショット (完全一致71.92%) を上回ります。TAT-LLMが使用する「抽出 (Extractor) → 推論 (Reasoner) → 実行 (Executor)」の段階的パイプラインはTAGOPの直感を踏襲していますが、シンボリックタガーをプロンプトベースのLLMに置き換えています。

評価できる点と今後の課題

このベンチマークは、実際のデータ、実際の質問、実際の財務報告書を使用しています。その信頼性が最大の資産です。発表時の人間とモデルの間の32ポイントの差は本物であり、5年経った今でもトップシステムが完全には克服できていないほど、このデータセットは困難です。

懸念されるのは「単一テーブル」の前提です。各TAT-QAのコンテキストには正確に1つの表しか含まれていません。実際の年次報告書には数十の表が含まれており、セグメント、子会社、期間をまたいで階層的な関係があることが一般的です。TAT-QAの質問に完璧に答えられるモデルであっても、実際の会計業務で不可欠な「表をまたいだ連結」にはまだ対応できません。MMQAの論文 (ICLR 2025) もまさにこの点を指摘しており、TAT-QAのような単一テーブルのベンチマークは、実務者が直面するマルチテーブルの複雑さを過小評価しているとしています。

また、回答タイプの分布も、実際ほど難しくはありません。TAT-QAの回答の約42%は単一のスパン、つまり計算を必要としない直接的な抽出です。挑戦的な複合演算は少数派です。抽出はすべて正解し、算術演算はすべて間違えるモデルでも、30〜40%程度のスコアを獲得できてしまいます。ベンチマークが難易度によって重み付けされていないため、真に困難な推論ケースからのシグナルが平滑化されてしまっています。

最後に、人間のベースライン (90.8% F1) は、文書にアクセスできるものの、必ずしも公認会計士(CPA)レベルの専門家ではないアノテーターによって計算されました。エージェントが算術演算だけでなく会計方針を理解しなければならないBeancount規模の元帳推論においては、90.8%という数字は「正しい」上限としては過小評価かもしれません。

財務AIにとっての重要性

TAT-QAは、Beancountエージェントが日常的に直面するものに最も近い公開ベンチマークです。つまり、構造化されたエントリデータ(表)と、非構造化されたナラティブ(摘要、説明、方針ノート)が隣接している状態です。TAGOPの結果は、元帳ツールを構築する際に予想されることを裏付けています。すなわち、計算よりもグラウンディング(根拠の特定)の方が難しいということです。正しいセルにタグを付けることが問題であり、それらを合計することは些細なことです。

リーダーボードの軌跡はプロダクト開発にとって心強いものです。このドメインで微調整された7BパラメータのモデルがGPT-4のゼロショットを上回るという事実は、Beancount専用に微調整されたモデルが、すべての元帳クエリに対してフロンティアモデルのAPIを呼び出すことなく、検索と算術演算のワークロードを処理できる可能性を示唆しています。コンパクトな特化型モデルをローカルで実行できれば、レイテンシ、コスト、データのプライバシーはすべて向上します。

単一テーブルの制限は、Bean Labsが解決すべき直接的な課題です。Beancountの元帳は実質的にマルチテーブルのドキュメント(勘定科目の記帳、予算行、照合ノート)であり、関連する表をまたぐマルチホップ構造を捉えたベンチマークはまだ完全には存在しません。MultiHiertt (ACL 2022) が最も近い存在であり、それが私のリストにある次の論文です。

次に読むべきもの

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — TAT-QAの単一テーブルの制限に直接対処。同一財務書類内の複数の階層的な表をまたぐ推論を必要とし、連結財務諸表に近い構造を持つ。
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — FinQAをマルチターンの対話に拡張。質問のターンをまたいで数値コンテキストを追跡する必要があり、元帳セッションに関するフォローアップの質問を処理するBeancountエージェントの挙動に対応する。
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — NExT++グループによる直接の後続研究。「抽出→推論→実行」パイプラインで微調整されたLLaMA-2が、TAT-QAおよびFinQAでGPT-4ゼロショットをどのように上回るかを示している。