FinRAGBench-V:金融领域带视觉引用的多模态 RAG
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%,且多模态检索的表现优于纯文本检索近 50 个百分点。
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%,且多模态检索的表现优于纯文本检索近 50 个百分点。
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期 末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
WildToolBench (ICLR 2026) 评估了 57 个 LLM 在源自真实用户行为的 1,024 个任务上的表现——没有模型的会话准确率超过 15%,其中组合编排、隐藏意图和指令转换是三个最显著的失败模式。
一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明,GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC,仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。
JSONSchemaBench 对 9,558 个真实世界的 JSON 模式进行了针对六种约束解码框架的测试,发现模式复杂度导致覆盖率从简单模式的 86% 崩塌至复杂模式的 3%,其中 XGrammar 静默输出了 38 个不合规结果,且没有任何框架能够涵盖所有 45 个 JSON Schema 特征类别。
FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%,揭示了从单工具到多轮场景下 20 倍的性能崩塌。
FinTrace 在 9 个指标上对 13 个大语言模型(LLM)进行了评估,涵盖了 800 条专家标注的金融任务轨迹。研究发现,前沿模型在工具选择方面表现强劲(F1 ~0.9),但在信息利用率(即代理对工具返回结果进行推理的步骤)方面得分仅为 3.23/5。
FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。
OmniEval (EMNLP 2025) 通过 1.14 万个自 动生成的测试用例,在 5 种任务类型 × 16 个金融主题上对 RAG 系统进行了基准测试。表现最好的系统数值准确度仅为 36%——这有力地证明了在写入结构化金融账本之前,RAG 流水线需要验证层。
对 Xu 和 Ding 在 NAACL 2025 上发表的关于基于 LLM 的异常和 OOD 检测综述的评注:虽然检测与生成的分类体系站得住脚,但表格数据覆盖的几乎完全缺失意味着金融 AI 从业者必须自行综合来自视觉模型的见解。