FinRAGBench-V:金融领域带视觉引用的多模态 RAG
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%, 且多模态检索的表现优于纯文本检索近 50 个百分点。
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%, 且多模态检索的表现优于纯文本检索近 50 个百分点。
Fin-RATE 对 17 个大语言模型进行了基准测试,涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%,而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。
FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。
DocFinQA 将 FinQA 精选的 700 字段落替换为完整的 123,000 字 SEC 申报文件,使上下文长度增加了 175 倍,这导致 GPT-4 在长文档上的准确率几乎减半。检索流水线在 HR@3 时有 45% 的概率无法找到正确的切片 —— 而长文本模型并不能替代检索。
FinAuditing 在 1,102 个真实 SEC XBRL 申报实例上对 13 个大语言模型进行了零样本测试;财务数学验证的最高分仅为 13.86%,概念检索的最高分为 12.42% —— 这些结果直接限制了在没有外部工具的情况下,可以信任 AI 会计工具自动执行的任务范围。
TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调,在 FinQA 上实现了 64.60% 的精确匹配率(EM)——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤,从而消除了算术错误。
MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对,每份报告平均包含 3.89 个层级表;最先进的模型 F1 分数为 38%,而人类为 87%, 且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。
ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话,研究发现性能最佳的微调模型实现了 68.9% 的执行准确率,而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中,准确率降至 52.4%。
TAT-QA 是一个包含 16,552 个问题的基准测试,涵盖了财务报表中混合表格与文本的语境。该研究证明证据定位(而非算术)是财务 AI 的核心瓶颈;到 2024 年,微调后的 7B 参数量 LLM 已达到 83% 的 F1 分数,基本缩小了与 91% 人类上限的差距。
FinQA (EMNLP 2021) 基于标准普尔 500 强企业的收益报告构建了 8,281 个问答对,这些问答需要多步算术程序。发布时,神经模型的得分为 61%,而人类专家为 91%;在三步及以上的程序中,准确率骤降至 22%。其失败模式——领域常数、跨模态锚定、推理链长度——直接对应了当今 Beancount 代理所面临的挑战。