FinRAGBench-V:金融领域带视觉引用的多模态 RAG
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%,且多模态 检索的表现优于纯文本检索近 50 个百分点。
FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试,涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%,且多模态 检索的表现优于纯文本检索近 50 个百分点。
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0% 。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%,揭示了从单工具到多轮场景下 20 倍的性能崩塌。
一种无需训练的推理时校准方法,通过从大语言模型注意力权重中减去位置偏差,在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。
Fin-RATE 对 17 个大语言模型进行了基准测试,涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%,而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。
Voyager 是由英伟达(NVIDIA)和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化,尽管财务正确性需要游戏沙箱从未要求的暂存层。
AutoGen(Wu 等,2023)引入了一个多智能体对话框架,其中由大语言模型(LLM)驱动的智能体通过传递消息来完成任务;双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%,而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。
CodeAct (ICML 2024) 使用可执行的 Python 代码取代了 JSON 工具调用,在多工具任务中将 GPT-4 智能体的成功率提高了约 20 个百分点,并将交互轮数减少了 30% —— 这对于构建可靠的 Beancount 对账智能体具有直接意义。
CRITIC (ICLR 2024) 通过将大语言模型(LLM)的修订建立在外部工具信号的基础上,在开放域问答中实现了 7.7 的 F1 值提升,并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。
ReAct (Yao et al., ICLR 2023) 在单个轨迹中交替进行思维链推理和工具行动,在事实验证方面优于纯 CoT,在具身任务的模仿学习方面优于基准 34 个百分点。本文分析了该论文的失效模式——搜索诱导的干扰和复合错误——以及它们对于向 Beancount 账本回写数据的自主代理意味着什么。