WorkArena++：人类与 AI 智能体在复合型企业任务表现上 93% 的差距

2026年6月17日 · 阅读需 6 分钟

Mike Thrift

Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) 将原有的 WorkArena 基准测试扩展到了 682 个复合型企业任务，这些任务需要串联多个工作流——这正是 Beancount 自动化智能体需要处理的多步知识工作。我正在阅读这篇论文，因为原有的 WorkArena 日志 (LOG-061) 留下了一个悬而未决的问题：当你将原子任务组合成真实的工作流时会发生什么。正如这篇论文明确指出的，答案是：目前所有的大语言模型（LLM）都表现得一败涂地。

论文综述

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

ServiceNow Research 的 Boisvert 等人采用了原版 WorkArena 中的原子任务组件——表单填写、列表筛选、知识库搜索、仪表盘读取——并将它们组合成现实的多步企业工作流。该基准测试通过 BrowserGym 环境完全在真实的 ServiceNow 实例中运行，为智能体提供 HTML 观测值和可选的屏幕截图输入。

其关键的结构化决策是设立了三级难度分层。L1 是原版的 WorkArena：原子的、单操作任务，例如“按状态 = 已关闭筛选此列表”。L2 引入了带有明确分步指令的复合型任务——智能体在对话中收到完整的流程说明，但必须在不同的 ServiceNow 模块中执行一系列子任务而不断链。L3 是困难版本：智能体仅获得一个隐性目标（例如“入职新员工”），必须先从公司的知识库中检索相关流程，然后再规划并执行步骤。这正是真实知识工作者的运作方式。

作者还包含了一种从专家（oracle）解决方案中自动生成基准（ground-truth）观测-动作轨迹的机制，从而能够在无需手动标注的情况下实现监督微调。

关键观点

人类解决了 93.9% 的复合任务；GPT-4o 仅解决了 2.1%。 这不是语言理解能力的失败，而是大规模规划和执行能力的失败。
没有任何模型能完成任何 L3 任务。 在没有明确指导的情况下检索流程、规划步骤并执行的要求，目前所有测试模型（包括具备视觉能力的 GPT-4o-v）都完全无法解决。
只有 GPT-4o 和 GPT-4o-v 成功完成了部分 L2 任务，主要是记忆类子任务。基于 Llama3 的智能体在 L2 和 L3 任务上基本都失败了。
L3 任务的真实性是核心设计选择：接收如“入职新员工”这样的隐性目标而没有流程说明——然后必须去查阅它——这是员工在企业环境中实际接收任务的方式。
测试了五个能力维度：约束下的规划、信息检索、数据驱动的推理、顺序记忆以及识别不可行的任务。
记录的失败模式：对 UI 元素的幻觉、无法在长上下文中维持多步计划、以及无法交叉引用来自不同文档的信息。

哪些站得住脚，哪些站不住

93.9% vs. 2.1% 的头条数据令人震惊，但在机制上是可以解释的。L2 和 L3 要求模型记住三步前的操作，将从一个文档中检索的信息与即将填写的表单关联起来，并知道某个子步骤何时依赖于前一个步骤的完成。这些操作并不罕见——人类可以毫不费力地完成——但当前的 LLM 智能体在协调性上会崩溃。

我发现这里最有价值的是 L2 与 L3 的对比设计。L2 为智能体提供了流程；L3 则没有。它们之间的性能悬崖精准地隔离出了一种能力：用“检索加规划”替代“显式指令遵循”。这是自主知识工作的难点，而该基准测试清晰地暴露了这一点。

这篇论文没有做到的是展示训练轨迹机制是否真的有帮助。作者提供了生成微调数据的基础设施，并声称模型可以在其上进行训练——但他们没有报告这样做的结果。如果没有这个实验，WorkArena++ 只是一个当前所有智能体都会失败的基准测试，且没有展示改进的路径。这限制了它作为训练目标的短期效用。

对 ServiceNow 的依赖也限制了通用性。ServiceNow 拥有异常结构化且文档齐全的界面。如果智能体在这里失败了，在大多数组织实际运行的更混乱的企业系统中，它们的表现会更糟。

为什么这对财务 AI 至关重要

这与 Beancount 自动化的联系非常直接。自主账务智能体默认就在进行 L3 级别的工作：用户说“核对上个月的费用”，智能体必须从账本中检索相关的账户结构，规划要检查哪些分录，与导入的银行数据进行交叉比对，并执行回写操作——这一切都没有分步指南。WorkArena++ 用数字说明了当前智能体处理这种模式时的糟糕程度。

训练轨迹机制也具有直接的适用性。Beancount 任务具有确定性的专家解决方案——正确的日记账分录是可验证的——这意味着可以大规模生成基准轨迹，用于微调专门的账本智能体。这正是 WorkArena++ 所赋能的，尽管论文本身并未对其进行深入挖掘。它更像是一个设计蓝图，而非一个已解决的问题。

L3 零成功率是对 Bean Labs 最有用的校准参考点：即使在拥有干净数据和良好结构化界面的受控企业环境中，最先进的智能体目前仍无法处理隐性目标的复合型任务。这一差距正是研究价值所在。

WorkArena++：人类与 AI 智能体在复合型企业任务表现上 93% 的差距

论文综述

关键观点

哪些站得住脚，哪些站不住

为什么这对财务 AI 至关重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文综述​

关键观点​

哪些站得住脚，哪些站不住​

为什么这对财务 AI 至关重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文综述

关键观点

哪些站得住脚，哪些站不住

为什么这对财务 AI 至关重要

延伸阅读