FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈
FinDER (arXiv:2504.15800) は、シンプルながらも見過ごされがちな観察に基づいて構築された検索ベンチマークです。それは、実際の財務専門家が入力するクエリは、学術的なベンチマークにあるような洗練された質問とは全く異なるという点です。私がこの論文を読んでいるのは、私が追跡してきた2つの流れ、つまり財務AIにおける検索のギャップと、DocFinQAやFinanceBenchが露呈し始めた実用的なリアリズムの問題の交差点に位置しているからです。
論文の概要
Chanyeol Choi氏、Jihoon Kwon氏、および財務AI企業の同僚らは、実際のヘッジファンドアナリストのQ&Aサービスから提供された、専門家によって注釈が付けられた5,703件の「クエリ・根拠・回答」のトリプレットのデータセットを発表しました。ドキュメントは、SEC EDGARから収集されたS&P 500企業490社のForm 10-K提出書類です。FinDERを以前のベンチマークと区別するのはクエリ側です。クエリの89.86%には、3つ以上のドメイン固有の略語や頭字語が含まれています。「2023会計年度のX社の総収益はいくらですか?」の代わりに、実際のアナリストは「GOOGL 10-K FY23 revs breakdown by segment」と入力するかもしれません。このデータセットはICLR 2025の財務AIの進歩に関するワークショップで発表され、その後ICAIF 2025に掲載されました。
主なアイデア
- 検索の再現率は全体的に驚くほど低い: E5-Mistral(最高の密ベクトル検索モデル)は全体のコンテキスト再現率でわずか25.95%しか達成できず、BM25は11.68%にとどまりました。会計に最も直接関連する「財務(Financials)」カテゴリは最も困難で、それぞれ15.84%と6.42%でした。
- クエリの曖昧さだけで適合率が8.2ポイント低下する: 著者らが500件のクエリでE5-Mistralをテストしたところ、適切に構成された言い換え(適合率33.9)と、実際の略語を含むクエリ(適合率25.7)を比較しました。この乖離はドキュメントの複雑さではなく、完全に略語/頭字語の処理に起因しています。
- 検索品質が生成の支配的なボトルネックである: コンテキストのないLLMのスコアはほぼゼロ(正解率9〜10%)ですが、検 索された上位10個の文章を提供すると29〜34%に達し、完璧なオラクル(正解)コンテキストでは60〜68%に急上昇します。現実的な条件とオラクル条件の間の35ポイントの差は、オープンソースモデルと最先端モデルの間の差よりも大きくなっています。
- 複合的な算術演算は良好な検索結果があっても停滞する: 上位10個の検索結果を提供した場合でも、Claude-3.7-Sonnet、GPT-o1、DeepSeek-R1-Distill、Qwen-QWQの4つのモデルすべてにおいて、多段階の計算タスク(複合クエリ)の正解率は約20%にとどまりました。GPT-o1は掛け算タスクで42.90%とリードしていますが、割り算では27.78%に低下します。
- LLMによる再ランキングは、控えめながらも一貫した改善をもたらす: 回答前にモデルにE5-Mistralの上位10件の結果を再ランキングさせたところ、Claude-3.7-SonnetはF1スコア63.05、GPT-o1は62.90を達成しました。Deepseek-R1-Distillは、他の構造化推論で強力なパフォーマンスを示しているにもかかわらず、60.01と後塵を拝しました。
- カテゴリごとの難易度は不均一: リスク(Risk)に関するクエリは最も検索しやすく(E5-Mistral: 再現率33.07)、財務(Financials)は依然として最も困難です(15.84)。これはクエリの構造と相関しており、リスク開示は自然言語の文章を使用するのに対し、財務諸表は密な数値表記を使用するためです。
何が正当で、何が不十分か
核となる貢献は強固です。これは実務のアナリストによる実際のクエリ分布であり、略語の問題は本物です。WikipediaやFinQAスタイルのクラウドソーシングから構築されたベンチマークでは、これを見逃してしまいます。「コンテキストなし、現実的な検索、オラクルコンテキスト」という3層の評価構造は正しい設計です。これにより、検索の品質と推論の品質が明確に分離され、定性的な質問に対して完璧なコンテキストがあっても依然として約32〜34%の失敗があるという、生成における残存するギャップが示されています。
この論文の最も弱い点は再現性です。発表当時、データセットは公開されておらず、著者らは「後日公開する予定である」と述べています。評価基準を自称するワークショップ論文にとって、これは重大な問題です。公開されないベンチマークはベンチマークではなく、ケーススタディに過ぎません。その後ICAIF 2025に掲載されたため、公開された可能性がありますが、arXiv版では確認できません。
また、検索評価では、4つのシングルステージモデル(BM25、GTE、mE5、E5-Mistral)のみが使用されています。ハイブリッド検索も、クエリ拡張も、HyDEも、略語の問題を特にターゲットにしたリライトステップもありません。著者らが略語による乖離を正確に特徴づけていることを考えると、検索前にクエリを拡張する(例:「GOOGL」→「Alphabet Inc.」)という明白な解決策をテストしていないのは驚きです。その実験は欠落しています。
生成の結果については、より詳しく読み解く必要があります。コンテキストなしでの約9〜10%のパフォーマンスは、有用な下限値ではなく、実質的にゼロです。しかし、60〜68%のオラクルシーリング(上限)は、見かけ以上に示唆に富んでいます。正しい一節が手元にあっても、最高のモデルでさえ定性的な質問の約3分の1、複合的な算術演算の5分の4で失敗します。この天井が重要なのです。つまり、検索だけでは問題を解決できないことを意味しています。
なぜこれが財務AIにとって重要なのか
FinDERにおけるクエリの分布は、Beancountユーザーが実際に元帳エージェントとやり取りする方法とよく一致しています。長年アカウントを維持してきたユーザーは、「Q3のアマゾンのクレジットカードの払い戻しは何ですか?」ではなく、「AMZN card Q3 reimb?」のような、略語を含み文脈に依存したクエリを入力するでしょう。標準的な埋め込みモデルは、クリーンな自然言語テキストでトレーニングされているため、正しいエントリの検索に失敗します。クリーンなクエリから実際のクエリへの8.2ポイントの適合率低下は、個人の元帳ドメインにおいてはおそらく控えめな数字です。そこでは、SEC標準の略語よりもトレーニングデータからさらに遠い、独自の略記(例:property management feeを「prop mgmt fee」とする)が使われるからです。
E5-Mistralにおける25.95%というコンテキスト再現率の天井は、ひとつの強制関数となります。Beancount RAGパイプラインは、証拠の大部 分を見逃すことを想定して設計する必要があります。一つの含意は、1回のパスでF1スコアを追求するよりも、高再現率の再検索(複数回のパス、多様なクエリ形式)の方が重要であるということです。もう一つは、検索前にユーザーの略記を標準的な勘定科目にマッピングする「クエリの正規化」を、埋め込みモデルに任せるのではなく、明示的な前処理ステップにすべきであるということです。
オラクルコンテキストがあっても20%という複合算術演算の精度は、別のシグナルです。Beancountの計算タスクにおいて、生成のボトルネックは検索ではなく推論です。数値タスクに対しては、検索がどれほど向上したとしても、PAL(Program-Aided Language models)スタイルのオフローディング(自由形式の計算ではなくPythonの算術演算を生成する)が依然として正しい答えです。
次に読むべきもの
- Fin-RATE (arXiv:2602.07294) — SEC提出書類における複数期間の追跡のためのコンパニオンベンチマーク。時間的タスクでは精度が18.60%低下します。これはBeancountの多年度にわたる元帳の問題に直結しています。
- IRCoT (arXiv:2212.10509, ACL 2023) — 検索と思考の連鎖(CoT)推論を交互に行う手法。マルチパス検索構造は、FinDERが露呈したシングルパスでの低い再現率に直接対処します。
- ドメイン固有の検索のためのLLMによるクエリ拡張 — これを十分にカバー した単一のベンチマーク論文はまだありませんが、FinDERの略語のギャップを考えると、これは最優先の研究課題です。「HyDE financial domain」や「query expansion SEC filings 2025」で検索するのが良い出発点です。
