TheAgentCompany:在真实企业任务中评估大语言模型智能体
TheAgentCompany 在包含 GitLab、OwnCloud 和 RocketChat 的模拟内网环境中测试了 175 个真实的职场任务。表现最好的模型(Gemini-2.5-Pro)仅完成了 30% 的任务,且每项任务成本高达 4 美元,这表明自主智能体在会计和财务工作流中仍远未达到可用水平。
TheAgentCompany 在包含 GitLab、OwnCloud 和 RocketChat 的模拟内网环境中测试了 175 个真实的职场任务。表现最好的模型(Gemini-2.5-Pro)仅完成了 30% 的任务,且每项任务成本高达 4 美元,这表明自主智能体在会计和财务工作流中仍远未达到可用水平。
WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%,而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因,以及这一差距对自主账务自动化的重大影响。
WorkArena 在 33 个真实的 ServiceNow 任务上对 LLM 网络智能体进行了基准测试——GPT-4o 总体得分达到 42.7%,但在列表过滤任务中得分为 0%,揭示了表单填写与结构化 UI 交互之间存在的巨大障碍,这直接对应了 Beancount 账本自动化的挑战。