FinRAGBench-V:金融领域带视觉引用的多模态 RAG
金融 AI 一直由纯文本 RAG(检索增强生成)主导,但真实的金融文档充满了 OCR(光学字符识别)无法完全捕捉的图表、表格和插图。FinRAGBench-V (EMNLP 2025) 是首个用于评估金融领域带视觉引用的多模态 RAG 的大规模基准测试,其结果清醒地提醒我们,生产系统距离完善还有多远。
论文介绍
来自北京大学的 Zhao、Jin、Li 和 Gao 介绍了 FinRAGBench-V,这是一个由真实金融文档构建的双语基准测试,涵盖了研究报告、财务报表、招股说明书、学术论文、杂志和新闻文章。检索语料库规模庞大——包含 60,780 页中文页面和 51,219 页英文页面,每种语言约有 1,100 份文档。它配对了 1,394 对人工标注的问答对,涵盖七个问题类别:文本推理、图表和表格提取、数值计算、时效性查询以及多页推理。除了数据集外,该论文的核心贡献是 RGenCite,这是一个基线系统,它在生成 答案的同时,还会以边界框坐标的形式生成像素级视觉引用,标记支持每个论点的特定文档区域。
核心观点
- 多模态检索以压倒性优势领先纯文本检索:ColQwen2 是一种基于页面图像嵌入构建的视觉语言检索器,其 Recall@10 在中文环境下达到 90.13%,在英文环境下达到 85.86%。而最好的文本检索器(如 BM25 和 BGE-M3)最高仅在 42.71% 左右。这种差距绝非偶然。
- 即便是前沿模型,生成准确率依然较低:在英文测试中,GPT-4o 的准确率为 43.41% (ROUGE 24.66);在中文测试中,o4-mini 达到 58.13% (ROUGE 38.55)。这些都是在具备强大检索能力的前提下,顶级专有模型的表现。
- 页面级引用有效,但块级引用无效:对于表现最好的模型,页面级召回率在 75–93% 之间。然而,块级召回率(即确定支撑论点的具体表格单元格或图表区域)则下降到了 20–61%。这是可审计性的关键瓶颈。
- 数值推理和多页推理最先让模型失效:在所有测试系统中,涉及跨页计算或跨时间跨度的问题是准确率下降最明显的地方。
- 专有模型表现显著优于开源替代方案:在多模态 RAG 领域,闭源 API 与开源模型之间的差距比大多数 NLP 基准测试中都要大,这表明对于开源模型而言,视觉金融推理仍是一个未解难题。
- 引用的自动评估并不完善:图像裁剪引用评估器与人工判断的 Pearson 相关系数 r = 0.68。这虽然在合理范围内,但如果没有人工抽样,仍不足以完全信任。
哪些结论站得住脚,哪些值得商榷
多模态检索的发现是本文最可信的结果。在超过 6 万页的规模下,多模态检索器与纯文本检索器之间近 50 个百分点的差距是不容忽视的。在索引之前对金融文档进行 OCR 处理会破坏结构布局信号——例如数字所在的列、图表标题是否修改了对表格的解读——这些信号对于检索至关重要。
生成准确率的数据很真实,但很难孤立地解读。作者没有详细分析准确率差距中有多少归因于检索错误,多少归因于生成失败。鉴于英文 Recall@10 已经达到 85.86%,很大一部分失败必然源于生成端而非检索端。明确这一细分领域将有助于厘清瓶颈在于多模态推理,还是多模态大模型(MLLM)处理金融语言时的更深层基础问题。
针对该基准测试的范围,1,394 个问答对的评估集相对较小。由于被划分为七个类别和两种语言,部分细分领域的样本量不足 200。各类别发现的统计显著性仅是隐含的。这在基准测试论文中并不少见,但也意味着容易构建出“挑选过”的对比结果。
引用评估方案是一个有趣的贡献,但与人工评分 r = 0.68 的相关性还不够强,不足以将自动评估视为块级接地的绝对标准。作者也承认了这一点,并明确指出未来的工作需要更好的引用评估指标。