LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存 率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。
EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存 率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。