FinRAGBench-V:金融領域における視覚的引用を伴うマルチモーダルRAG
金融AIはこれまでテキストのみのRAGが主流でしたが、実際の金融文書はチャート、表、図表にあふれており、OCRでは完全にとらえることができません。FinRAGBench-V(EMNLP 2025)は、金融領域における視覚的引用を伴うマルチモーダルRAGを評価する初の大規模ベンチマークであり、その結果は、実用化されているシステムが到達すべきレベルまでの道のりの遠さを改めて突きつけています。
論文の概要
北京大学のZhao、Jin、Li、Gaoらは、調査レポート、財務諸表、目論見書、学術論文、雑誌、ニュース記事などの実際の金融文書から構築されたバイリンガルベンチマークであるFinRAGBench-Vを発表しました。検索コーパスは膨大で、中国語60,780ページ、英語51,219ペ ージに及び、各言語約1,100件の文書が含まれています。これに、テキスト推論、チャート・表の抽出、数値計算、時間的制約のあるクエリ、複数ページにわたる推論など、7つの質問カテゴリにわたる、人間がアノテーションした1,394個のQAペアが組み合わされています。データセットに加えて、本論文の主要な貢献はRGenCiteです。これは、各主張を裏付ける特定の文書領域を示すバウンディングボックス座標の形式で、回答とともにピクセルレベルの視覚的引用を生成するベースラインシステムです。
主なポイント
- マルチモーダル検索がテキストのみの検索を圧倒的な差で凌駕: ページ画像の埋め込みに基づいて構築されたビジョン・ランゲージ・リトリーバーであるColQwen2は、Recall@10で90.13%(中国語)および85.86%(英語)を達成しました。一方、最高クラスのテキストベースのリトリーバーであるBM25やBGE-M3は42.71%前後にとどまっています。この差は無視できるものではありません。
- 最先端モデルであっても生成精度は低い: 英語でのGPT-4oの正解率は43.41%(ROUGE 24.66)、中国語でのo4-miniは58.13%(ROUGE 38.55)でした。これらは強力な検索機能を備えた最高峰の商用モデルでの結果です。
- ページレベルの引用は機能するが、ブロックレベルは機能しない: ページレベルの再現率は、最良のモデルで75〜93%に達します。しかし、どの特定のテーブルセルやチャート領域が主張の根拠となっているかを特定するブロックレベルの再現率は、20〜61%にまで低下します。これが監査可能性(アウディタビリティ)における大きな課題です。
- 数値推論と複数ページの推論が最初に限界を迎える: 複数ページにわたる計算や期間をまたぐ推論が必要な質問は、テストされたすべてのシステムで最も精度が急落するポイントとなりました。
- 商用モデルがオープンソースの代替モデルを大幅に上回る: 多くのNLPベンチマークよりもクローズドAPIとオープンソースモデルの差が大きく、視覚的な金融推論はオープンソースモデルにとって依然として未解決の課題であることを示唆しています。
- 引用の自動評価は不完全: 画像クロッピングによる引用エバリュエーターは、人間の判断とピアソンの相関係数 r = 0.68を達成しましたが、サンプリングなしで完全に信頼できるほどではありません。
評価できる点と今後の課題
検索に関する発見は、本論文の中で最も信頼できる結果です。6万ページ以上の規模でマルチモーダルとテキストのみのリトリーバーの間に50パーセントポイント近い差があることは、見過ごせません。金融文書をインデックス化する前にOCR処理を行うと、数値がどの列にあるか、図のキャプションが表の解釈をどう変えるかといった、検索において非常に重要となる構造的なレイアウト信号が破壊されてしまうのです。
生成精度の数値は正直なものですが、単独で解釈するのは困難です。著者らは、精度のギャップのうち、どれだけが検索エラーに起因し、どれだけが生成の失敗に起因するのかを詳細に分析(アブレーション)していません。英語のRecall@10がすでに85.86%であることを考えると、失敗の大部分は検索側ではなく生成側にあるはずです。この内訳が明らかになれば、ボトルネックがマルチモーダル推論にあるのか、あるいはMLLMが金融用語を処理する方法というより根本的な問題にあるのかが明確になるでしょう。
1,394個というQAペアの評価セットは、ベンチマークの範囲に対して少なめです。7つのカテゴリと2つの言語に分けると、一部のセグメントは200サンプルを大きく下回ります。カテゴリレベルの知見の統計的有意性は明示されていません。これはベンチマーク論文では珍しいことではありませんが、都合の良い比較対象を作りやすいことを意味します。
引用評価プロトコルは興味深い貢献ですが、人間による評価との相関係数が r = 0.68 というのは、ブロックレベルの根拠付け(グラウンディング)において自動評価を「正解」として扱うには十分な強さではありません。著者らもこの点を認めており、より優れた引用指標に関する今後の研究が明示的に求められています。
なぜこれが金融AIにとって重要なのか
Beancountはプレーンテキストの元帳ファイルで動作するため、過去の取引の照会にはテキストのみのRAGでも妥当と言えます。しかし、より広範な会計業務には、銀行の取引明細書のPDF、スキャンされた請求書、領収書の画像、表やチャートが埋め込まれた年次報告書など、明らかにプレーンテキストではない文書が含まれます。Beancountのエージェントが、元帳のエントリをソース文書と照合する必要がある瞬間(特定の請求がファイル上の請求書と一致するかを確認するなど)、それはまさにFinRAGBench-Vがベンチマークとしているタスクそのものを行っていることになります。
ブロックレベルの引用に関する発見は、このユースケースにおいて最も重要です。エージェントがPDF内の特定のラインアイテムを指し示して元帳入力を正当化しなければならない場合、利用可能な最良のシステムでもブロックレベルの再現率が20〜61%しか達成できないのであれば、それは「監査可能」とは言えません。スキャンされたソース文書を扱うBeancountのパイプラインでは、この数値が大幅に改善されるまで、人間による確認(Human-in-the-loop)が不可欠です。
また、検索モダリティの格差は、文書の取り込みにおいて純粋なテキストのみのパイプラインを採用することに強く警鐘を鳴らしています。領収書の画像には、金額フィールド、ベンダー名、ラインアイテムの位置などのレイアウト情報が含まれていますが、OCRはこれを破壊してしまいます。そのレイアウト情報こそが、行の合計と税額を区別するための鍵であり、FinRAGBench-Vは、マルチモーダルリトリー バーがテキストリトリーバーには不可能な方法でそれを活用できることを示しています。
次に読むべき資料
- ColPali: Efficient Document Retrieval with Vision Language Models — FinRAGBench-Vの最高のリトリーバーの基礎となった、視覚的ページ埋め込みアプローチを確立したColQwen2の前身 [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — ページをまたがるシングルホップおよびマルチホップの視覚的推論を処理する柔軟なフレームワークで、複数文書の視覚的QAに取り組んでいます [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — 金融マルチモーダルRAGにおける時間感受性を評価する2025年の関連ベンチマークで、FinRAGBench-Vの時間感受性質問カテゴリを直接補完する内容です [arXiv:2503.05185]
