TheAgentCompany:在真实企业任务中评估大语言模型智能体
TheAgentCompany 是我目前在这个系列中读到的最真实的企业级智能体基准测试。它来自卡内基梅隆大学(CMU)Graham Neubig 的团队,并提交至 NeurIPS 2024。其初衷是填补一个明显的空白:现有的基准测试大多测试孤立的网页导航或 GitHub 问题解决,但真实的职场任务需要智能体在单个任务中浏览内部平台、给同事发消息、编写代码并运行程序。我读这篇文章是因为它是目前最严谨的受控实验,探讨了大语言模型(LLM)智能体是否真的能在具有重大影响的场景中担任“数字同事”。
论文解读
Xu 等人构建了一个自给自足的模拟公司:包含一个本地工作区和运行着 GitLab、OwnCloud、Plane(项目管理)以及 RocketChat(团队即时通讯)真实实例的内网环境。该环境还包括模拟同事——由 LLM 驱动的 NPC——这样智能体就可以在任务中发送消息并接 收指导。任务涵盖七个角色类别:软件开发工程(SDE)、项目管理、人力资源(HR)、数据科学、财务、行政以及杂项“其他”。总计 175 个任务,由 20 名计算机科学专业的学生和软件工程师在两个月内历时约 3,000 人时精心策划而成。
评估采用了检查点系统:每个任务都有中间里程碑,占总分的一部分,全额完成则有额外奖励。评估器要么是确定性的(检查文件内容、代码输出、环境状态),要么是基于 LLM 的(评估自由格式的文本)。所有模型都在 OpenHands 智能体框架下运行,该框架从一个可配置的控制台中提供代码执行、网页浏览和终端访问功能。
核心观点
- Gemini-2.5-Pro 以 30.3% 的完全完成率和 39.3% 的部分得分领先;Claude-3.7-Sonnet 以 26.3% / 36.4% 紧随其后;GPT-4o 仅达到 8.6% / 16.7%;Llama-3.1-405B 则为 7.4%。
- 表现最好的模型平均执行约 27 个智能体步骤,且每项任务的成本超过 4 美元——即使是作者描述为比实际职场复杂度更简单的任务也是如此。
- 财务任务与行政和数据科学一样,是最难的类别之一;尽管 SDE 任务需要更专业的背景知识,但它们反而是最容易完成的。
- 三种主要的失败模式占据主导地位:导航复杂的 Web UI(特别是 OwnCloud 的办公套件)、无法有效地利用同事的消息(“缺乏社交技巧”),以及由于厌倦了需要繁琐交叉引用的多文档行政任务而选择放弃。
- 作者将 SDE 的优势直接归因于训练数据偏差:LLM 预训练由于突出的基准测试和丰富的公共训练信号,严重向代码和 GitHub 数据倾斜,因此模型在软件任务上的泛化能力远好于 HR 或财务工作流。
哪些结论站得住脚,哪些站不住
环境设计确实令人印象深刻。运行真实的 GitLab、OwnCloud 和 RocketChat 而非模拟存根,意味着智能体会面临真实的 UI 复杂性——真实的弹窗、身份验证流程和边缘情况。基于检查点的部分评分也是正确的选择:二元化的成功/失败判定会使大多数任务看起来都毫无希望,从而掩盖智能体实际取得的进展。
话虽如此,有几处弱点值得注意。最关键的是,缺乏人类表现基准。作者承认了这一点——资源限制导致无法收集人类的操作时间或成功率——这意味着我们没有参照标准。30% 的智能体完成率听起来很糟糕,但如果不知道人类在同一任务上是花 20 分钟还是 3 小时,或者某些任务是否本身就存在歧义,这个数字就很难放在具体的语境中理解。
财务类别仅有 12 个任务。这个样本量太小,无法对财务领域的特定失败得出可靠结论。智能体在财务任务上表现较差,是因为财务推理的某种属性,还是因为这些财务任务恰好涉及更多的 OwnCloud 文档导航?论文在这一规模下无法区分,作者也未作尝试。
作者还承认,由于需要使用程序和测试用例进行自动评估,任务“通常偏向简单的一面”。最困难的真实会计或财务任务——例如根据不一致的原始数据编制年末对账、识别监管合规问题、跨多个账期生成管理报告——基本上是无法自动评估的。该基准测试很可能漏掉了对自主财务智 能体最为关键的任务样本。
为什么这对财务 AI 很重要
这里的评估结果以一种有用的方式令人清醒。在作者称为“简化版”的任务中仅有 30% 的完成率,意味着自主智能体在真实会计工作流中的可操作性还差得很远。财务类别的表现尤为薄弱,而主要的失败模式——复杂的 UI、多文档检索、与人类协作的沟通中断——恰恰是 Beancount 自动化智能体所需的技能:从文档存储中提取数据、跨报告交叉引用交易,并在提交写入前提出澄清性问题。
表现最好的模型每项任务 4 美元的成本是一个硬性制约。按照这个费率,运行一个涉及数十个子任务的日常月末结账智能体将花费数百美元,且无法保证可靠性。Gemini-2.0-Flash 表现出的及早止损模式——以低于 1 美元的单项任务成本获得 19.0% 的部分得分——表明在工程上,知道何时停止并升级(人工接入)比在失败的轨迹上空耗 Token 更有价值。
模拟同事 NPC 是一个有趣的创新,它直接对应了 Beancount 的现实约束:忽略用户反馈并带着错误假设前进的智能体,比停下来询问的智能体更危险。基准测试发现当前模型无法从同事消息中提取有用信息,这应该是任何在执行过程中与人类会计师交互的回写智能体在设计时的直接参考。
延展阅读
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents —— TheAgentCompany 背后的智能体框架;arXiv:2407.16741, ICLR 2025。了解 OpenHands 的 CodeAct + 浏览架构,可以明确哪些智能体能力是基础性的,而 TheAgentCompany 实际测试的又是什么。
- DocFinQA: A Long-Context Financial Reasoning Dataset —— 将 7,437 个 FinQA 问题扩展到平均 12.3 万字的完整 SEC 文件;arXiv:2401.06915, ACL 2024。直接测试了 TheAgentCompany 那 12 个财务任务无法充分采样的长文档财务推理。
- Evaluation and Benchmarking of LLM Agents: A Survey —— arXiv:2507.21504。一份 2025 年关于智能体评估现状的综述,将 TheAgentCompany 与 WebArena、OSWorld 和 SWE-bench 进行了横向对比,并追踪了基准测试的设计选择如何影响我们对智能体能力的结论。
