OmniEval: 金融分野向け全方位型RAG評価ベンチマーク
金融におけるほとんどのRAGベンチマークは、システムが検索して回答できるかどうかを問うだけです。RUC(中国人民大学)のShuting WangらによるOmniEval(EMNLP 2025, arXiv:2412.13018)は、より困難な問いを投げかけています。それは、タスクタイプと金融トピックの完全なマトリックス全体でパフォーマンスが維持されるか、という点です。私が今これを読んでいるのは、RAGパイプラインの上に信頼性の高いBeancount帳簿エージェントを構築しようとする前に、金融におけるRAGの失敗の形をマッピングする最も構造化された試みだからです。
論文について
OmniEvalは、5つのタスククラス(抽出型QA、マルチホップ推論、対照QA、ロングフォームQA、対話型QA)と16の金融トピック(株式市場、投 資銀行、ファンド、損害保険など)を交差させた2次元の評価グリッドを構築しています。その結果、11,400件の自動生成テスト事例、1,700件の人手によるアノテーション事例、および6つの中国の金融データソース(193,000件のドキュメントを含むBSCF-DB、55,000件のFinGLM、48,000件のBAAI-Fin、公式サイトのウェブクロール、PDF、Wikipediaの金融コンテンツ)から収集された362,000件のドキュメント検索コーパスからなる構造化されたベンチマークが作成されました。このベンチマークには、人手でラベル付けされた910件のインスタンスでトレーニングされ、正確性、ハルシネーション、完全性、活用度、数値の正確性にわたって生成品質をスコアリングする、ファインチューニングされたLLM評価器(Qwen2.5-7B-Instruct)も含まれています。この論文はEMNLP 2025で発表されました。
主なアイデア
- 自動生成されたテストケースは87.47%の人手による承認率をパスしました。これは、生成されたインスタンスの約8個に1個が破棄されたことを意味し、ベンチマークとしては無視できないノイズ率です。
- 最高の検索器(GTE-Qwen2-1.5B)は、自動生成セットでMAP 0.4370、MRR 0.4491を達成しました。これは、テストされた最強の検索器であっても、上位にランクされたパッセージが正しい確率は半分以下であることを意味します。
- すべての検索器とLLMの組み合わせにおける生成の正確性(ACC)は0.3238から0.4476の範囲でした。つ まり、最良の構成でも質問の半分以上に正解できていません。
- 数値の正確性(NAC)が最も顕著な発見です:0.0659から0.3595。最良のシステムでも金融数値を正しく答えられるのは約36%であり、最悪のシステムはほぼゼロに近い値です。
- ファインチューニングされた評価器は、人手によるアノテーションと74.4%の一致率(κ = 0.6486)に達しました。これは、プロンプトのみのベースライン(55〜71%)を大幅に上回っていますが、依然として4回に1回の評価は人間の判断と一致していません。
- マルチホップ推論と対話型QAは、一貫して最も困難なタスククラスでした。
有効な点とそうでない点
マトリックス評価のデザインは非常に有用です。これまでの金融ベンチマーク(FinanceBench、FinQA、DocFinQA)は、評価を単一の軸(通常は回答の正確性)として扱っており、RAGが失敗する構造的な変動を見逃していました。システムが抽出型QAでは高得点だがマルチホップ推論では低得点であると知ることは、改善に繋がりますが、総合スコアの平均を知るだけでは不十分です。OmniEvalのグリッドはその変動を可視化しており、トピック間でパフォーマンスが不均一であるという発見は、実務家が導入前に確認すべきまさにその種の結果です。
とはいえ、率直に指摘したい限界もあります。コーパスは圧倒的に中国語です。6つのデータソースのうち5つ が中国の金融データ(BSCF、FinGLM、BAAI-Fin)であり、6つ目は中国語のWikipediaです。論文では言語別の結果は報告されておらず、集計された数値のみが報告されています。そのため、論文内のすべてのスコアは、一般的な金融RAGに関する主張ではなく、中国語に特化した検索器やLLM(GTE-Qwen2-1.5B、Qwen2.5-72B、Yi15-34B)を用いた中国語テキストに対する金融RAGに関する主張として疑ってかかる必要があります。英語圏の金融ユーザーは、これらの数値を直接利用することはできません。
LLM評価器は910件のラベル付きインスタンスでトレーニングされています。これは不十分です。κ = 0.6486で74.4%の人間との一致率は、出発点としては擁護できますが、評価フレームワーク自体がかなりのノイズを導入していることを意味します。数パーセントの差しかないシステムを比較するためにこのベンチマークを使用すると、評価器の分散がシグナルをかき消してしまうでしょう。
GPT-4がテスト質問を生成し、人間が87.47%の採用率でフィルタリングするという自動生成パイプラインも、論文が触れていない汚染(contamination)の問題を提起しています。GPT-4が生成した質問は、古いモデルや小規模なモデルを体系的に不利にするような方法で、GPT-4クラスのモデルの強みに有利に働く可能性があります。
なぜこれが金融AIにとって重要なのか
私 が何度も立ち戻ってしまうのは、数値の正確性のスコア(0.0659〜0.3595)です。テストされた最高のRAGシステムでも、ベンチマーク評価で金融数値を正しく答えられるのが36%に過ぎないのであれば、ナイーブなRAGパイプラインの上に構築されたBeancount書き戻しエージェントは、帳簿データを破損させることになるでしょう。Beancountのフォーマットは容赦がありません。金額、日付、または勘定科目の名前が間違っていれば、パースエラーが発生するか、あるいは会計年度を超えて伝播する目に見えない会計エラーが発生します。このベンチマークは、RAGの検索とLLMの生成が、検証レイヤーなしで直接帳簿に書き込むほどにはまだ信頼できないという具体的な証拠を提示しています。
タスククラスの構造も、Beancountのユースケースにきれいに対応しています。抽出型QAは、単純な残高確認に対応します。マルチホップ推論は、「第1四半期から第3四半期までの税引き後の純利益はいくらか?」といった質問に対応します。対話型QAは、セッションを通じてユーザーが照合リクエストを繰り返し修正する場合に対応します。マルチホップおよび対話型タスクが最も困難であるというOmniEvalの発見は、Beancountエージェントの設計にとってまさに悪いニュースです。簡単なケースはほぼ問題ありませんが、現実的なケースでシステムが崩壊するのです。
次に読むべきもの
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — OmniEvalの評価器ファインチューニング手法に最も近い汎用ドメインの類似例です。ARESの手法とOmniEvalの手法を比較することで、LLM評価器の設計選択が原理に基づいたものか、あるいは場当たり的なものかが明確になるでしょう。
- RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — RAG評価のための自動シナリオ生成フレームワークです。OmniEvalが使用している自動生成手法を拡張したものであり、汚染の懸念に対処している可能性があります。
- FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — RAG評価をマルチモーダルな金融ドキュメント(表、チャート)に拡張したものです。Beancountのユーザーがプレーンテキストの帳簿と並んで領収書の画像やPDFの明細書を持つことが増えているため、関連性が高いです。
