FinRAGBench-V:金融领域带视觉引用的多模态 RAG
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%,且多模态检索 的表现优于纯文本检索近 50 个百分点。
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%,且多模态检索 的表现优于纯文本检索近 50 个百分点。
一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明,GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC,仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。
FinTrace 在 9 个指标上对 13 个大语言模型(LLM)进行了评估,涵盖了 800 条专家标注的金融任务轨迹。研究发现,前沿模型在工具选择方面表现强劲(F1 ~0.9),但在信息利用率(即代理对工具返回结果进行推理的步骤)方面得分仅为 3.23/5。
OmniEval (EMNLP 2025) 通过 1.14 万个自动生成的测试用例,在 5 种任务类型 × 16 个金融主题上对 RAG 系统进行了基准测试。表现最好的系统数值准确度仅为 36%——这有力地证明了在写入结构化金融账本之前,RAG 流水线需要验证层。
FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。
Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。
AnoLLM (ICLR 2025) 将表格式异常检测重新表述为 LLM 密度估计 —— 在正常行上进行微调,并通过负对数似然进行评分。它在混合类型欺诈数据集上优于传 统方法,但在纯数值数据上没有优势,这对检测 Beancount 账本分录中的异常具有实际意义。
DocFinQA 将 FinQA 精选的 700 字段落替换为完整的 123,000 字 SEC 申报文件,使上下文长度增加了 175 倍,这导致 GPT-4 在长文档上的准确率几乎减半。检索流水线在 HR@3 时有 45% 的概率无法找到正确的切片 —— 而长文本模型并不能替代检索。
TheAgentCompany 在包含 GitLab、OwnCloud 和 RocketChat 的模拟内网环境中测试了 175 个真实的职场任务。表现最好的模型(Gemini-2.5-Pro)仅完成了 30% 的任务,且每项任务成本高达 4 美元,这表明自主智能体在会计和财务工作流中仍远未达到可用水平。
InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。