LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距
当前金融 AI 领域最雄心勃勃的问题不是“LLM 能否回答关于资产负债表的问题?”,而是“LLM 能否在不耗尽资金的情况下长期管理公司的财务?”Yi Han 等人的论文《LLM 智能体能担任 CFO 吗?》(Can LLM Agents Be CFOs?, arXiv:2603.23638)构建了 EnterpriseArena 来测试这一点,而答案是:勉强可以,但表现并非如你所料。
论文分析
EnterpriseArena 是一个为期 132 个月(11 年)的 CFO 级别资源分配模拟。每个时间步代表一个月。智能体会收到关于公司层面财务状况、匿名业务文档以及从 FRED、CBOE 和标普全球数据中提取的宏观经济信号的部分观测信息。它每月拥有 20 次工具调用预算,分布在四种操作中:核实现金头寸、审查财务记录、分析市场状况和预测现金流。智能体必须在三个操作中选择其一:结账(对账)、请求资金(股权或债务,结果具有随机性)或跳过。主要约束是公司的现金余额在每个时间步必须保持非负;一旦违反,该回合即以零分结束。在生存的前提下,智能体会根据评分公式 $Rev_T \times 5 + Cash_T - 5,000 \times N_{tools}$ 来最大化期末企业估值,该公式明确惩罚了过度的工具调用。
测试评估了 11 个 LLM,包括 Gemini-3.1-Pro、Claude-Haiku-4.5、GPT-5.4、DeepSeek-V3.1、Llama-3.3-70B、Qwen3.5-397B 和 Qwen3.5-9B,同时引入了由两名分别拥有 8 年和 14 年经验的财务专业人士验证的人类专家基准。
关键观点
- 模型间的生存率差异巨大:Qwen3.5-9B 在 80% 的测试中幸存,Gemini-3.1-Pro 为 50%,Claude-Haiku-4.5 和 GLM-5 各为 20%,而 GPT-5.4、DeepSeek-V3.1、Llama-3.3-70B、Mistral-Small-24B 和 Mixtral-8x7B 则全部为 0%。LLM 的整体平均生存率为 26%。
- 大模型并不一定优于小模型:Qwen3.5-9B(90 亿参数,80% 生存率,7880 万美元期末估值)果断击败了 Qwen3.5-397B(3970 亿参数,20% 生存率)和 GPT-5.4(0% 生存率)。
- 与人类的差距巨大:人类基准实现了 100% 的生存率和 $152.2M ± $29.6M 的期末估值;而 LLM 的平均值仅为 2820 万美元,生存率为 26%。
- 结账是关键瓶颈:人类专家在 94.3% 的时间步中会结账(对账);而 LLM 的平均比例仅为 19.3%。结账是生成基准财务报表并使后续理性决策成为可能的核心操作。
- 只收集信息而不采取行动是致命的:Qwen3.5-397B 在整个模拟过程中频繁使用市场分析和预测工具,但几乎从不结账(结账率为 0.0%),也几乎从不请求资金,尽管它“知道”发生了什么,最终仍因现金耗尽而倒闭。
- 工具预算惩罚至关重要:评分公式主动惩罚那些强迫性检查信息而不采取行动的智能体,这一约束反映了真实的决策机会成本。
哪些结论站得住脚,哪些存疑
双重目标设计——作为硬约束的生存率加上期末估值——是近期智能体基准测试中最强有力的选择之一。它反映了真实 CFO 的运作方式:如果资金枯竭,你将无法优化增长。对日历日期和公司身份的匿名化处理防止了模型通过记忆历史结果来进行模式匹配,这相比于使用真实股票代码和日期的金融基准测试是一个真正的方改进。
作者通过案例研究确定的失败模式分类是可信的:GPT-5.4 达到了 99.1% 的“跳过”率(意味着它在几乎每个时间步都通过不采取行动来执行操作),而 Qwen3.5-397B 则误将分析当成了行动。这些是行为迥异的失败模式,需要不同的补救措施。
我不那么信服的地方在于:随机宏观环境使用高斯噪声来近似市场冲击,作者自己也承认这无法复制黑天鹅事件或人类的非理性。每月 20 次调用的工具预算也有些随意——现实中的 CFO 在使用自己的记忆时并不会面临这种查询率限制,这引发了一个问题:该基准是在衡量长周期的财务判断力,还是更接近于资源压力下的 RAG(检索增强生成)表现。单智能体结构是作者提到的另一个明确局限:现实中的 CFO 在由财务总监、财务规划与分析 (FP&A) 专家和司库团队组成的层级体系中运作,而论文并未尝试模拟这一点。
模型规模不能预测生存率的发现令人震惊且可能属实,但其机制并未得到充分解释。作者记录了这一现象,但未完全拆解这究竟是指令遵循、长上下文连贯性还是风险校准方面的失败。
为什么这对金融 AI 至关重要
EnterpriseArena 中的“结账”操作本质上就是 Beancount 中的 balance 余额断言和账本对账步骤——即智能体在行动前确认财务状态基准真相的时刻。研究发现 LLM 在 80% 的时间里跳过了这一步,这直接映射到了“回写安全性”问题:一个在行动前拒绝核实的智能体,其决策必然基于过时或幻觉的状态。对于 Beancount 自动化而言,这表明在任何智能体循环中,对账步骤都应该是强制性且可验证的,而非可选。
132 个月的时间跨度也与多年期的账本管理直接类比。研究发现持续的态势感知能力会随时间推移而下降,这与我们对管理五年交易历史的 Beancount 智能体的预期一致:即使智能体的上下文中拥有所有数据,在第 60 个月时它也可能无法做出连贯的决策。这表明在长期运行的 Beancount 智能体会话中,周期性的强制对账检查点——而不仅仅是响应式查询——是必要的。
Qwen3.5-397B 陷入的信息搜集陷阱是一个有用的设计警示:配备了大量检索工具的智能体可能更倾向于检索而非承诺行动,尤其是在错误操作(账本损坏)成本很高的情况下。EnterpriseArena 所采用的工具预算约束,可能有助于增强 Beancount 回写 智能体的行动纪律。
延伸阅读
- EcoGym (arXiv:2602.09514) —— 这是一个互补的长周期经济基准,涵盖了自动售货、自由职业和运营环境,步数超过 1,000 步;没有模型能在三个环境中同时占据主导地位,这表明 EnterpriseArena 中的失败模式并非特定基准设计所特有。
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) —— 将工作流设计重新表述为利用 MCTS 和 LLM 反馈的代码空间搜索;如果 EnterpriseArena 证明了人工设计的智能体行为会失败,那么 AFlow 则是自动发现更好流水线的下一步方案。
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) —— 基础性的工具使用训练和评估框架;了解 ToolLLM 如何学习工具调用行为,有助于理清 EnterpriseArena 中的“规避行动”失败究竟是训练问题还是提示词工程问题。
