ConvFinQA:マルチターンの財務QAとモデル・専門家間にある21ポイントの格差
FinQA、FinanceBench、TAT-QAといったシングルターンの財務QAについていくつか記事を書いてきましたが、今回はユーザーが*追加の質問(フォローアップ質問)*をしたときに何が起こるかを見ていきたいと思います。ConvFinQA(Chenら、EMNLP 2022)は、FinQAの設定をマルチターン対話へと拡張した論文です。その結果、シングルターンのベンチマークでは決して見えてこない失敗のパターンが浮き彫りになりました。それは、単発の数値推論で優れた成績を収めるモデルでも、2ターン前の発言を参照した瞬間に、頻繁に破綻してしまうということです。
論文の概要
Zhiyu Chen、Shiyang Li、Charese Smiley、Zhiqiang Ma、Sameena Shah、William Yang Wang( カリフォルニア大学サンタバーバラ校およびJ.P.モルガン)によるConvFinQAは、2,066ページの財務報告書に基づいた、計14,115の質問を含む3,892のマルチターン対話データセットを構築しました。各対話は、FinQAで使用されたものと同じS&P 500の提出書類(決算報告書)に基づいており、質問が連鎖しているため、後のターンで前の回答を参照できるようになっています。タスク形式はFinQAから継承されており、モデルは小規模なドメイン固有言語(加算、減算、乗算、除算、比較、指数など)でプログラムを生成し、それが実行されて回答が生成されます。評価には、実行結果が正解と一致するかどうかの「実行精度」と、生成されたプログラムが正解プログラムと一致するかどうかの「プログラム精度」が使用されます。
このデータセットには2つの対話タイプがあります。タイプIの「シンプル」な対話は、単一の複雑なFinQAの質問を一連のサブ質問に分解したものです。タイプIIの「ハイブリッド」な対話は、同じレポートに関する2つの異なるFinQAの質問の分解を連結したもので、クロスアスペクトな推論を強いています。質問の60%以上が前のターンへの依存関係を持っており、ハイブリッド対話の後半の質問は、モデルが異なる財務トピックにわたって推論状態を維持しなければならないため、大幅に難易度が高くなっています。
主要な知見
- 最高精度の微調整済みモデル(RoBERTa-largeを使用したFinQANet):テスト セットで68.90%の実行精度。人間の財務専門家は**89.44%**に達します。一般的なクラウドワーカー(MTurk)は46.90%であり、このタスクに真のドメイン知識が必要であることを裏付ける顕著な格差となっています。
- GPT-3 (text-davinci-002, 175B) に20個のフューショット例示と正解の根拠事実を与えた場合:50.30%の実行精度。微調整された専門モデルを大幅に下回り、クラウドワーカーをわずかに上回る程度でした。
- Chain-of-Thought(思考の連鎖)プロンプティングはGPT-3に悪影響を及ぼしました。CoTの精度は**40.63%**で、標準的なプログラムプロンプティングの45.15%を下回りました。モデルは実際の質問に適用するのではなく、与えられた例の推論形式を模倣してしまったのです。
- ハイブリッド対話は大幅に困難です。ハイブリッド対話の後半部分のスコアは、シンプル対話の72.37%に対し、FinQANetで**52.38%**でした。マルチアスペクトな相互参照こそが、現在のモデルが崩壊するポイントです。
- GPT-3は特に「前年度はどうですか?」といったフォローアップに答えるような数値選択の質問に苦戦し、FinQANetが82.54%に達する一方で、わずか35.32%しか達成できませんでした。対話における照応解析(anaphora resolution)がボトルネックとなっています。
評価と考察
データセットの構築は丁寧であり、評価もクリーンです。実行精度と並行してプログラム精度を使用す ることは価値があります。2つのプログラムが異なる(おそらく間違った)推論プロセスを経て同じ数値結果を出すことがありますが、プログラム精度はそれを捉えることができます。実際のS&P 500提出書類に対話を固定するという決定により、タスクが合成的なものではなく、現実に基づいたものに保たれています。
とはいえ、対話の多様性は設計上制限されています。すべての対話は既存のFinQAの質問を分解して構成されているため、真にオープンエンドな対話や、明確化のターン、ユーザーによる修正などは含まれていません。現実の会計上の対話には、これらすべてが含まれます。このデータセットは、対話的推論の制御された近似であり、自然なサンプルではありません。
GPT-3の分析については、時代の変化を感じさせます。出版当時(2022年後半)、GPT-3が50%を下回ることは意味のあるネガティブな結果に感じられました。しかし、この論文はGPT-4以前のものであり、その後の研究では、より能力の高いモデルがこの格差の多くを埋めていることが示されています。プロンプティングが逆効果になったというCoTの知見は興味深いですが、モデル固有の可能性があります。CoTは、指示に従う能力が高いモデルほど、より効果的に機能する傾向があります。
また、評価は「最終的な回答の正しさ」に完全に焦点を当てており、中間的な推論チェーンの質を無視しています。これは重要です。なぜなら、モデルは間違ったプログラムを介して数値的に正しい回答を生成したり(これはプログラム精度である程度捕捉できますが)、わずかな言い換えで失敗するような脆弱な推論を介して正しいプロ グラムを生成したりする可能性があるからです。FinChain (2025) はこれを明示的に批判し、透明性に焦点を当てた代替案を提唱しています。本番システムにおいては、モデルが「なぜ」正しい答えを導き出したかを知ることは、正しい答えを出したことを知るのと同じくらい重要です。
なぜこれが財務AIにとって重要なのか
ユーザーの問い合わせに対応するBeancountエージェントが、単発の自己完結した質問を受けることは稀です。ユーザーは「先月の食費はいくらでしたか?」と聞き、次に「その前の月と比べてどうですか?」、さらに「それは予算よりも多いですか?」と尋ねます。各質問は前の質問の上に積み重なっていきます。ConvFinQAはこのインタラクションパターンに最も近い公開ベンチマークであり、その数字は深刻です。正解データのリトリーバルがあっても、2022年時点の最高モデルは人間の専門家のパフォーマンスと約21ポイントの格差があり、マルチアスペクトな質問ではその差はさらに広がりました。
ハイブリッド対話における特定の失敗は注目に値します。ユーザーが同じセッション内で収益の質問から費用の質問に切り替えたとき、モデルはトピックの焦点をリセットしつつ、数値的な文脈を引き継ぐ必要があります。これは、マルチターンの帳簿確認セッションでBeancountエージェントがまさに行わなけ ればならないことです。それらのターンにおける52.38%というスコアは、現在の手法がそのシナリオをどの程度扱えるかという直接的な下限値を示しています。
CoTに関する知見も実用的です。マルチターンの設定で財務データについて推論するようにモデルに促す場合、少なくともGPT-3レベルの能力を持つモデルでは、自由形式のChain-of-Thoughtよりも構造化されたプログラム生成の方が信頼性が高い可能性を示唆しています。より能力の高いモデルではこの逆転現象は見られないかもしれませんが、それは仮定するのではなく、テストすべき仮説です。
次に読むべきもの
- ConvFinQA APOLLO follow-up (arXiv:2212.07249) — 数値認識ネガティブサンプリングと一貫性ベースの強化学習を使用してConvFinQAでSOTA(最先端)を達成。元の論文の後に何が格差を埋めたかを知るために読む価値があります。
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) — 算術処理をDSLではなくPythonインタープリタにオフロード。財務QAタスクでCoTより約12%の改善を報告し、ConvFinQAでSOTAに近い成績を達成。CodeActのアイデアを財務推論に直接結びつけています。
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — 生成の最初に一度だけリトリーバルを行うのではなく、生成中にオンデマンドでリトリーバルを実行。モデルが検索すべき内容がターンごとに変化するマルチターンの設定に直接関連しています。
