跳到主要内容

WorkArena++:人类与 AI 智能体在复合型企业任务表现上 93% 的差距

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) 将原有的 WorkArena 基准测试扩展到了 682 个复合型企业任务,这些任务需要串联多个工作流——这正是 Beancount 自动化智能体需要处理的多步知识工作。我正在阅读这篇论文,因为原有的 WorkArena 日志 (LOG-061) 留下了一个悬而未决的问题:当你将原子任务组合成真实的工作流时会发生什么。正如这篇论文明确指出的,答案是:目前所有的大语言模型(LLM)都表现得一败涂地。

论文综述

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

ServiceNow Research 的 Boisvert 等人采用了原版 WorkArena 中的原子任务组件——表单填写、列表筛选、知识库搜索、仪表盘读取——并将它们组合成现实的多步企业工作流。该基准测试通过 BrowserGym 环境完全在真实的 ServiceNow 实例中运行,为智能体提供 HTML 观测值和可选的屏幕截图输入。

其关键的结构化决策是设立了三级难度分层。L1 是原版的 WorkArena:原子的、单操作任务,例如“按状态 = 已关闭筛选此列表”。L2 引入了带有明确分步指令的复合型任务——智能体在对话中收到完整的流程说明,但必须在不同的 ServiceNow 模块中执行一系列子任务而不断链。L3 是困难版本:智能体仅获得一个隐性目标(例如“入职新员工”),必须先从公司的知识库中检索相关流程,然后再规划并执行步骤。这正是真实知识工作者的运作方式。

作者还包含了一种从专家(oracle)解决方案中自动生成基准(ground-truth)观测-动作轨迹的机制,从而能够在无需手动标注的情况下实现监督微调。

关键观点

  • 人类解决了 93.9% 的复合任务;GPT-4o 仅解决了 2.1%。 这不是语言理解能力的失败,而是大规模规划和执行能力的失败。
  • 没有任何模型能完成任何 L3 任务。 在没有明确指导的情况下检索流程、规划步骤并执行的要求,目前所有测试模型(包括具备视觉能力的 GPT-4o-v)都完全无法解决。
  • 只有 GPT-4o 和 GPT-4o-v 成功完成了部分 L2 任务,主要是记忆类子任务。基于 Llama3 的智能体在 L2 和 L3 任务上基本都失败了。
  • L3 任务的真实性是核心设计选择:接收如“入职新员工”这样的隐性目标而没有流程说明——然后必须去查阅它——这是员工在企业环境中实际接收任务的方式。
  • 测试了五个能力维度:约束下的规划、信息检索、数据驱动的推理、顺序记忆以及识别不可行的任务。
  • 记录的失败模式:对 UI 元素的幻觉、无法在长上下文中维持多步计划、以及无法交叉引用来自不同文档的信息。

哪些站得住脚,哪些站不住

93.9% vs. 2.1% 的头条数据令人震惊,但在机制上是可以解释的。L2 和 L3 要求模型记住三步前的操作,将从一个文档中检索的信息与即将填写的表单关联起来,并知道某个子步骤何时依赖于前一个步骤的完成。这些操作并不罕见——人类可以毫不费力地完成——但当前的 LLM 智能体在协调性上会崩溃。

我发现这里最有价值的是 L2 与 L3 的对比设计。L2 为智能体提供了流程;L3 则没有。它们之间的性能悬崖精准地隔离出了一种能力:用“检索加规划”替代“显式指令遵循”。这是自主知识工作的难点,而该基准测试清晰地暴露了这一点。

这篇论文没有做到的是展示训练轨迹机制是否真的有帮助。作者提供了生成微调数据的基础设施,并声称模型可以在其上进行训练——但他们没有报告这样做的结果。如果没有这个实验,WorkArena++ 只是一个当前所有智能体都会失败的基准测试,且没有展示改进的路径。这限制了它作为训练目标的短期效用。

对 ServiceNow 的依赖也限制了通用性。ServiceNow 拥有异常结构化且文档齐全的界面。如果智能体在这里失败了,在大多数组织实际运行的更混乱的企业系统中,它们的表现会更糟。

为什么这对财务 AI 至关重要

这与 Beancount 自动化的联系非常直接。自主账务智能体默认就在进行 L3 级别的工作:用户说“核对上个月的费用”,智能体必须从账本中检索相关的账户结构,规划要检查哪些分录,与导入的银行数据进行交叉比对,并执行回写操作——这一切都没有分步指南。WorkArena++ 用数字说明了当前智能体处理这种模式时的糟糕程度。

训练轨迹机制也具有直接的适用性。Beancount 任务具有确定性的专家解决方案——正确的日记账分录是可验证的——这意味着可以大规模生成基准轨迹,用于微调专门的账本智能体。这正是 WorkArena++ 所赋能的,尽管论文本身并未对其进行深入挖掘。它更像是一个设计蓝图,而非一个已解决的问题。

L3 零成功率是对 Bean Labs 最有用的校准参考点:即使在拥有干净数据和良好结构化界面的受控企业环境中,最先进的智能体目前仍无法处理隐性目标的复合型任务。这一差距正是研究价值所在。

延伸阅读

  • TheAgentCompany (arXiv:2412.14161) —— 在模拟软件公司内部进行的 175 个任务,拥有真实的内部工具(GitLab、RocketChat);表现最好的智能体完成度约为 30%;比 ServiceNow 更具自然主义的企业环境。
  • τ²-bench (arXiv:2506.07982) —— 将 τ-bench 扩展到双控制环境,智能体和用户可以同时修改共享状态;与用户和智能体共同编辑账本的 Beancount 会话直接相关。
  • CRMArena-Pro (arXiv:2505.18878) —— 使用较新模型对 CRM 业务场景进行全面的 LLM 智能体评估;测试 WorkArena++ 的能力差距是否已经缩小。