TAT-LLM: 財務表とテキストにおける離散的推論のために微調整されたLLaMA 2
検索(retrieval)と知識注入(knowledge injection)に1週間取り組んだ後、私は別の側面、つまり「タスクが明確に定義されている場合、ターゲットを絞った微調整は実際にどのようなメリットをもたらすのか?」を検討したいと考えました。TAT-LLM (arXiv:2401.13223, ICAIF 2024) は、その明快な回答の一つです。財務表とテキストのQAベンチマークにおいて構造化されたパイプラインでLLaMA 2を微調整し、GPT-4を上回りました。いつものことながら、肝心なのは細部です。
論文の概要
シンガポール国立大学NExT++のFengbin Zhu、Ziyang Liu、Fuli Feng、Chao Wang、Moxin Li、Tat-Seng Chuaらは、表とテキストが混在したデータに対する離散的推論のために微調整されたLLaMA 2モデル、TAT-LLMを発表しました。中心となる課題は、財務報告書に関する数値的な質問に答えることです。これは、表の中の特定の行を特定し、2つの数値を抽出し、答えにたどり着くために多段階の算術演算を行う必要がある種類の質問です。これはまさに人間が10-K(有価証券報告書)を読む際に行う作業です。
著者は、大規模モデルにエンドツーエンドでプロンプトを出すのではなく、タスクを3つの明示的なステップに分解しました。ドキュメントから関連する数値的証拠を特定する「抽出(Extractor)」、算術式を作成する「推論(Reasoner)」、そしてその式を決定論的に実行する「実行(Executor)」です。学習データは、既存の専門家がアノテーションしたデータセット(FinQA、TAT-QA、TAT-DQA)から、各インスタンスに中間的な抽出および推論ステップをアノテーションすることで自動生成されました。微調整には、7B、13B、70Bの3つのスケールのLLaMA 2に対してLoRAが使用されています。
主なアイデア
- パイプラインの分解がエンドツーエンドを上回る: 外部実行エンジン(決定論的算術)を導入するだけで、7Bモデル単体でFinQAのEMスコアが16.66ポイント向上しました。算術演算自体がモデルにとって難しいわけではありません。自然言語で行うと、壊滅的に信頼性が低くなるだけなのです。
- 7Bモデルが3つすべてのベンチマークでGPT-4を上回る: TAT-LLM 7Bは、FinQA で64.60%のEM(GPT-4は63.91%)、TAT-QAで74.56%のEM(同71.92%)、TAT-DQAで69.45%のEM(同64.46%)を記録しました。TAT-DQAにおける約5ポイントの差は非常に説得力があります。
- 抽出が主要な失敗モードである: エラー分析によると、ミスの48%は証拠抽出の誤りに起因しています。モデルが間違った行や列を特定したり、なじみのない財務用語のために数値を読み間違えたりするケースです。演算子の間違いはわずか19%でした。
- スケールアップの恩恵は限定的: 70Bの共同学習バリアント(TAT-LLM-All)は、FinQAで76.81%のEM、TAT-QAで81.42%のF1を達成し、意味のある利得を示しました。しかし、7BモデルですでにGPT-4を超えており、パラメータ数よりもパイプライン構造の方が重要であることが示唆されています。
- 人間のエキスパートには依然として遠く及ばない: TAT-QAにおいて人間のパフォーマンスは90.8%のF1スコアですが、TAT-LLMの最高結果は81.42%です。この差は現実的なものであり、論文内でも認められています。
評価できる点と懸念点
核となる技術的貢献は堅実です。算術演算を決定論的な実行エンジンにオフロードするのは明らかに正しい判断であり、アブレーション研究(要素別評価)がそれを決定的に証明しています。これはPALや同様の研究から得られたよく知られた教訓ですが、財務特化のベンチマークで定量化された(+16.66ポイント)ことは貴重な裏付けとなります。
一方で、私が懐疑的なのは「GPT-4を凌駕した」という見出しの主張です。FinQAでの差は0.69ポイントであり、本質的にノイズの範囲内です。また、GPT-4の数値はゼロショットまたは単純なプロンプトによる評価を反映したものであり、Chain-of-Thoughtや少数の学習事例(few-shot)、あるいは独自のコードインタープリターを使用したGPT-4ではありません。Pythonツールを使用するようにプロンプトされたGPT-4であれば、ほぼ確実にこれらの数値を上回るでしょう。比較自体は間違っていませんが、要旨が示唆するような「専門化の勝利」というストーリーとは少し異なります。
また、評価データの漏洩(evaluation leak)に関する重大な懸念もあります。モデルはFinQA、TAT-QA、TAT-DQAのトレーニング分割で微調整され、同じデータセットのテスト分割で評価されています。これは非常に狭い分布内(in-distribution)の設定です。論文には、学習中に一度も見なかった財務QAタスクが含まれていないため、新しいドキュメント形式や新しい算術パターンへの汎用性は証明されていません。
4,096トークンのコンテキスト制限は、現実世界の財務報告書においては実用上の致命的な欠点です。一般的な10-Kは100ページ以上に及び、単一の四半期決算短信でさえ4,096トークンを超えることがよくあります。記載されているモデルは、チャンク化(分割処理)なしでは本来の設計対象である入力を処理できません。また、証拠が複数のチャンクにまたがる場合に抽出精度がどのように低下するかについても触れられていません。
財務AIにとっての重要性
「抽出・推論・実行」の分解は、Beancountエージェントに直接応用できます。ユーザーが「2024年第1四半期と比較して、2025年第1四半期の合計食費はどうだったか?」と尋ねた場合、自然な構造は、関連するトランザクションを特定し(抽出)、集計式を作成し(推論)、それを元帳に対して実行する(実行)ことになります。TAT-LLMのエラー分析は具体的な予測を提示しています。つまり、Beancountエージェントが最も頻繁に失敗するのは抽出ステップ(間違った勘定科目、トランザクションの漏れ、金額の読み間違い)であり、算術演算ではないということです。
LoRAの微調整アプローチは、Beancount専用モデルを構築しようとする誰にとっても参考になります。専門家がアノテーションしたQAペアを取得し、それらに中間ステップをアノテーションするという学習データ生成戦略は、まさに元帳専用の推論データセットを構築する方法そのものです。正解となる元帳のエントリがあるため、(質問、抽出、数式、回答)のタプルを自動的に生成できます。
最大の障害はコンテキスト制限です。実運用レベルのBeancountエージェントは、数年分のエントリにわたって推論を行う必要があります。この論文のモデルはそのままでは不十分で、実用的になるためにはチャンク化、検索、またはより長いコンテキストウィンドウによる拡張が必要です。
次に読む べきもの
- FinQA (arXiv:2109.00122, EMNLP 2021) — TAT-LLMが評価された元のベンチマーク。「財務データに対する離散的推論」が具体的に何を意味するのか、LLM以前のSOTAがどのようなものだったかが明確になります。
- TAGOP (TAT-QA論文の一部, arXiv:2105.07624, ACL 2021) — TAT-QAタスクを定義した、表を考慮した演算子モデル。ルールベースの演算子選択がどのようなものかを理解することで、LLMベースの推論ステップが何を置き換えているのかという参照点が得られます。
- AuditCopilot (arXiv:2512.02726) — 実際の元帳データにおける仕訳テスト(Journal Entry Test)の異常検知において、LLaMAとGemmaをベンチマークしています。TAT-LLMの後の自然な疑問は、同じ微調整アプローチがQAではなく異常検知にも転用できるかどうかです。