跳到主要内容

FinRAGBench-V:金融领域带视觉引用的多模态 RAG

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

金融 AI 一直由纯文本 RAG(检索增强生成)主导,但真实的金融文档充满了 OCR(光学字符识别)无法完全捕捉的图表、表格和插图。FinRAGBench-V (EMNLP 2025) 是首个用于评估金融领域带视觉引用的多模态 RAG 的大规模基准测试,其结果清醒地提醒我们,生产系统距离完善还有多远。

论文介绍

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

来自北京大学的 Zhao、Jin、Li 和 Gao 介绍了 FinRAGBench-V,这是一个由真实金融文档构建的双语基准测试,涵盖了研究报告、财务报表、招股说明书、学术论文、杂志和新闻文章。检索语料库规模庞大——包含 60,780 页中文页面和 51,219 页英文页面,每种语言约有 1,100 份文档。它配对了 1,394 对人工标注的问答对,涵盖七个问题类别:文本推理、图表和表格提取、数值计算、时效性查询以及多页推理。除了数据集外,该论文的核心贡献是 RGenCite,这是一个基线系统,它在生成答案的同时,还会以边界框坐标的形式生成像素级视觉引用,标记支持每个论点的特定文档区域。

核心观点

  • 多模态检索以压倒性优势领先纯文本检索:ColQwen2 是一种基于页面图像嵌入构建的视觉语言检索器,其 Recall@10 在中文环境下达到 90.13%,在英文环境下达到 85.86%。而最好的文本检索器(如 BM25 和 BGE-M3)最高仅在 42.71% 左右。这种差距绝非偶然。
  • 即便是前沿模型,生成准确率依然较低:在英文测试中,GPT-4o 的准确率为 43.41% (ROUGE 24.66);在中文测试中,o4-mini 达到 58.13% (ROUGE 38.55)。这些都是在具备强大检索能力的前提下,顶级专有模型的表现。
  • 页面级引用有效,但块级引用无效:对于表现最好的模型,页面级召回率在 75–93% 之间。然而,块级召回率(即确定支撑论点的具体表格单元格或图表区域)则下降到了 20–61%。这是可审计性的关键瓶颈。
  • 数值推理和多页推理最先让模型失效:在所有测试系统中,涉及跨页计算或跨时间跨度的问题是准确率下降最明显的地方。
  • 专有模型表现显著优于开源替代方案:在多模态 RAG 领域,闭源 API 与开源模型之间的差距比大多数 NLP 基准测试中都要大,这表明对于开源模型而言,视觉金融推理仍是一个未解难题。
  • 引用的自动评估并不完善:图像裁剪引用评估器与人工判断的 Pearson 相关系数 r = 0.68。这虽然在合理范围内,但如果没有人工抽样,仍不足以完全信任。

哪些结论站得住脚,哪些值得商榷

多模态检索的发现是本文最可信的结果。在超过 6 万页的规模下,多模态检索器与纯文本检索器之间近 50 个百分点的差距是不容忽视的。在索引之前对金融文档进行 OCR 处理会破坏结构布局信号——例如数字所在的列、图表标题是否修改了对表格的解读——这些信号对于检索至关重要。

生成准确率的数据很真实,但很难孤立地解读。作者没有详细分析准确率差距中有多少归因于检索错误,多少归因于生成失败。鉴于英文 Recall@10 已经达到 85.86%,很大一部分失败必然源于生成端而非检索端。明确这一细分领域将有助于厘清瓶颈在于多模态推理,还是多模态大模型(MLLM)处理金融语言时的更深层基础问题。

针对该基准测试的范围,1,394 个问答对的评估集相对较小。由于被划分为七个类别和两种语言,部分细分领域的样本量不足 200。各类别发现的统计显著性仅是隐含的。这在基准测试论文中并不少见,但也意味着容易构建出“挑选过”的对比结果。

引用评估方案是一个有趣的贡献,但与人工评分 r = 0.68 的相关性还不够强,不足以将自动评估视为块级接地的绝对标准。作者也承认了这一点,并明确指出未来的工作需要更好的引用评估指标。

为什么这对金融 AI 至关重要

Beancount 基于纯文本分类账文件运行,这使得纯文本 RAG 在查询历史交易时非常有效。但更广泛的会计任务涉及的文档显然不是纯文本:银行对账单 PDF、扫描发票、收据图像、带有嵌入表格和图表的年度报告。一旦 Beancount 代理需要根据源文档进行账目核对——例如核实某笔费用是否与存档发票匹配——它执行的正是在 FinRAGBench-V 中进行基准测试的任务。

块级引用的发现对该用例最为关键。如果一个代理必须通过指向 PDF 中的特定行项目来证明某笔分类账分录的合理性,而目前最好的系统只能实现 20–61% 的块级召回率,那么这还不具备审计就绪性。在这一数字得到实质性改善之前,任何涉及扫描源文档的 Beancount 流程都需要人工参与审核。

检索模式的差距也强力反驳了在文档摄取中使用纯文本流水线的做法。收据图像携带了布局信息——金额字段、供应商名称、行项目位置——这些都会被 OCR 破坏。正是这些布局信息区分了总计金额与税额,FinRAGBench-V 表明多模态检索器能以文本检索器无法企及的方式利用这些信息。

延伸阅读

  • ColPali: Efficient Document Retrieval with Vision Language Models —— ColQwen2 的前身,确立了视觉页面嵌入方法,FinRAGBench-V 最好的检索器正是基于此构建的 [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding —— 利用一个灵活的框架解决多文档视觉问答,可处理跨页面的单跳和多跳视觉推理 [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance —— 2025 年的一个配套基准测试,评估金融多模态 RAG 中的时间敏感性,与 FinRAGBench-V 的时间敏感问题类别形成直接互补 [arXiv:2503.05185]