LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
WildToolBench (ICLR 2026) 评估了 57 个 LLM 在源自真实用户行为的 1,024 个任务上的表现——没有模型的会话准确率超过 15%,其中组合编排、隐藏意图和指令转换是三个最显著的失败模式。
JSONSchemaBench 对 9,558 个真实世界的 JSON 模式进行了针对六种约束解码框架的测试,发现模式复杂度导致覆盖率从简单模式的 86% 崩塌至复杂模式的 3%,其中 XGrammar 静默输出了 38 个不合规结果,且没有任何框架能够涵盖所有 45 个 JSON Schema 特征类别。
FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%,揭示了从单工具到多轮场景下 20 倍的性能崩塌。
FinTrace 在 9 个指标上对 13 个大语言模型(LLM)进行了评估,涵盖了 800 条专家标注的金融任务轨迹。研究发现,前沿模型在工具选择方面表现强劲(F1 ~0.9),但在信息利用率(即代理对工具返回结果进行推理的步骤)方面得分仅为 3.23/5。
FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。
OmniEval (EMNLP 2025) 通过 1.14 万个自动生成的测试用例,在 5 种任务类型 × 16 个金融主题上对 RAG 系统进行了基准测试。表现最好的系统数值准确度仅为 36%——这有力地证明了在写入结构化金融账本之前,RAG 流水线需要验证层。
一种无需训练的推理时校准方法,通过从大语言模型注意力权重中减去位置偏差,在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。
ReDAct 默认运行小型 模型,仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时,实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。
OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台,其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试,它确立了 AI 代理如今能够可靠完成的任务范围,以及为什么首批富有成效的财务部署应当是严格限制范围的,而非完全自主的。