跳到主要内容

OSWorld:桌面 AI 智能体任务成功率仅为 12%,而人类成功率为 72%

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

昨天我阅读了 WebArena,该研究显示自主网络智能体的成功率约为 14%,而人类基准为 78%。OSWorld (Xie 等人, NeurIPS 2024) 针对整个桌面系统提出了相同的问题:Ubuntu、Windows、macOS 以及真实的 GUI 应用程序。答案甚至更令人警醒——而且其失败模式本身也非常值得关注。

论文内容

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld 构建了一个包含 369 个任务的基准测试,这些任务基于真实的桌面应用程序:LibreOffice、Chrome、VS Code、GIMP、Thunderbird、VLC 以及多应用工作流。每个任务都配有程序化评估脚本,用于在执行后检查实际的系统状态——没有字符串匹配启发式算法,也没有 LLM 作为裁判。该设置使用虚拟机,以便任务从可重复的状态开始,并覆盖了所有三大操作系统。

作者测试了一系列前沿模型——GPT-4V、Gemini-Pro-Vision、Claude-3 Opus、Mixtral、CogAgent——涵盖四种输入配置:仅截图、仅辅助功能树、截图加辅助功能树,以及标记集(Set-of-Marks, SoM,即在模型动作前为交互元素覆盖数字标签)。

核心观点

  • 人类在面对陌生任务时,成功率为 72.36%。提交论文时表现最好的模型成功率仅为 12.24%。差距约为 60 个百分点。
  • 顶尖模型(GPT-4V、Gemini-Pro-Vision)的仅截图表现约在 5.26%–5.80% 之间——这意味着添加结构化上下文虽然使成功率大致翻倍,但仍有 87% 的失败率。
  • 多应用工作流任务是最难的类别,成功率上限仅为 6.57%,相比之下,OS/CLI 任务由于基于文本的界面使得接地(grounding)更容易。
  • 辅助功能树和标记集有所帮助,但其收益取决于模型:作者报告称,这些信息也可能因向模型提供过多的无关结构而引入混淆。
  • 论文发布后的进展非常迅速——Agent S (GPT-4o, 分层记忆) 达到了 20.58%;基于强化学习的 ARPO 推升至 29.9%;Agent S3 (Simular AI, 2025) 在 100 步设置下声称达到 62.6%,接近人类水平。但这些进步大多源于更好的接地模型和强化学习微调,而非 OSWorld 最初测试的基础提示词驱动的 LLM。
  • 对 550 次失败的错误分析显示:超过 75% 是鼠标点击不精确——智能体推理正确,但点击了错误的像素。这不是推理失败,而是视觉运动接地(visuomotor grounding)失败。

哪些观点站得住脚,哪些则不然

该基准测试的设计确实非常严谨。基于真实虚拟机的执行评估以及 134 个不同的评估脚本,消除了困扰许多智能体基准测试的模糊判断。这是一项重大的方法论贡献,也是其数据(12.24%)具有公信力的原因。

更难回答的问题是 12.24% 究竟衡量了什么。任务分布偏向于 GUI 密集型应用,在这些应用中,像素级的精确点击至关重要。一个完全在命令行界面 (CLI) 运行或输出文本文件的 Beancount 智能体,在这个基准测试中的表现可能会比在 LibreOffice 中进行电子表格格式设置的智能体好得多。标题数字将截然不同的认知需求(空间运动控制、多步规划、领域知识)捆绑在了一起,将其简单归结为“智能体无法使用计算机”的说法过于简化了。

“标记集可能会误导某些模型”的发现很有趣,但未被充分探讨。论文指出了差异,但并未充分解释哪些类型的任务或模型受益或受损。对于设计智能体用户界面的实践者来说,这似乎是最重要的问题,但文中仅用一段话带过。

我也对 369 个任务样本在多大程度上覆盖了真实工作流的长尾效应持怀疑态度。这些任务由研究人员策划,他们必然会偏向于可验证的任务。真正具有歧义的现实世界会计任务——例如“清理这些不一致的商户名称”——很难进行程序化评估,且很可能在测试中代表性不足。

为什么这对比金融 AI 至关重要

“75% 的失败是接地错误”的发现与 Beancount 智能体直接相关,尽管 Beancount 运行在文本层。更深层次的模式——智能体规划正确但执行错误——可以对应到账目回写失败,即智能体生成了正确的交易,但将其写入了错误的账户或写错了日期。在这两种情况下,瓶颈在于精确执行,而非策略推理。

多应用工作流表现 (6.57%) 是我认为对 Bean Labs 最具警示意义的数据。真实的会计工作流几乎总是跨越多个应用程序:银行 CSV 导出、Beancount 文件、对账电子表格、PDF 收据。如果 GUI 智能体即使在策划的任务中也难以进行多应用协作,那么一个需要协调导入、账本编辑和报告生成的 Beancount 智能体也将面临结构上相似的挑战——即使在不涉及像素点击的 CLI 环境下也是如此。

论文发布后的进展(Agent S3 达到 62.6%)带来的好消息是,这些并不是根本性的障碍。通过更好的接地模型和强化学习微调,这些问题是可以解决的。但这种进步需要 18 个月的时间和大量的强化学习训练计算资源,这并不是 Beancount 智能体可以从基础提示词驱动的前沿模型中默认获得的基准能力。

延伸阅读

  • AndroidWorld (Rawles 等人, arXiv:2405.14573) —— 将 OSWorld 扩展到具有动态参数化任务的 Android 设备,与移动端 Beancount 界面相关。
  • WindowsAgentArena (Bonatti 等人, arXiv:2409.08264, ICLR 2025) —— 针对 Windows 适配了 OSWorld,包含 150 多个任务;独立验证了这种差距在不同操作系统间依然存在。
  • Agent S2 (Agashe 等人, arXiv:2504.00906) —— 组合式的通用型-专家型架构,显著提升了最前沿水平;在设计 Beancount 多步规划器之前,值得了解其架构。