LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更 能可靠地预测性能。
一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法(OneFitsAll、Time-LLM 和 CALF)进行了消融实验,发现移除语言模型在大多数情况下能提高准确度,且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用,轻量级的专用模型表现始终优于改造成的 LLM。
FinBen 在 NeurIPS 2024 上对 36 个金融数据集中的 15 个大语言模型进行了评估,发现 GPT-4 在数值问答上的精确匹配率为 0.63,在股票走势预测上为 0.54 —— 接近随机。本文探讨了这些数据对于在 Beancount 账本上构建可靠的会计智能体意味着什么。