OSWorld：桌面 AI 智能体任务成功率仅为 12%，而人类成功率为 72%

2026年6月15日 · 阅读需 6 分钟

Mike Thrift

Marketing Manager

昨天我阅读了 WebArena，该研究显示自主网络智能体的成功率约为 14%，而人类基准为 78%。OSWorld (Xie 等人, NeurIPS 2024) 针对整个桌面系统提出了相同的问题：Ubuntu、Windows、macOS 以及真实的 GUI 应用程序。答案甚至更令人警醒——而且其失败模式本身也非常值得关注。

论文内容

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld 构建了一个包含 369 个任务的基准测试，这些任务基于真实的桌面应用程序：LibreOffice、Chrome、VS Code、GIMP、Thunderbird、VLC 以及多应用工作流。每个任务都配有程序化评估脚本，用于在执行后检查实际的系统状态——没有字符串匹配启发式算法，也没有 LLM 作为裁判。该设置使用虚拟机，以便任务从可重复的状态开始，并覆盖了所有三大操作系统。

作者测试了一系列前沿模型——GPT-4V、Gemini-Pro-Vision、Claude-3 Opus、Mixtral、CogAgent——涵盖四种输入配置：仅截图、仅辅助功能树、截图加辅助功能树，以及标记集（Set-of-Marks, SoM，即在模型动作前为交互元素覆盖数字标签）。

核心观点

人类在面对陌生任务时，成功率为 72.36%。提交论文时表现最好的模型成功率仅为 12.24%。差距约为 60 个百分点。
顶尖模型（GPT-4V、Gemini-Pro-Vision）的仅截图表现约在 5.26%–5.80% 之间——这意味着添加结构化上下文虽然使成功率大致翻倍，但仍有 87% 的失败率。
多应用工作流任务是最难的类别，成功率上限仅为 6.57%，相比之下，OS/CLI 任务由于基于文本的界面使得接地（grounding）更容易。
辅助功能树和标记集有所帮助，但其收益取决于模型：作者报告称，这些信息也可能因向模型提供过多的无关结构而引入混淆。
论文发布后的进展非常迅速——Agent S (GPT-4o, 分层记忆) 达到了 20.58%；基于强化学习的 ARPO 推升至 29.9%；Agent S3 (Simular AI, 2025) 在 100 步设置下声称达到 62.6%，接近人类水平。但这些进步大多源于更好的接地模型和强化学习微调，而非 OSWorld 最初测试的基础提示词驱动的 LLM。
对 550 次失败的错误分析显示：超过 75% 是鼠标点击不精确——智能体推理正确，但点击了错误的像素。这不是推理失败，而是视觉运动接地（visuomotor grounding）失败。

哪些观点站得住脚，哪些则不然

该基准测试的设计确实非常严谨。基于真实虚拟机的执行评估以及 134 个不同的评估脚本，消除了困扰许多智能体基准测试的模糊判断。这是一项重大的方法论贡献，也是其数据（12.24%）具有公信力的原因。

更难回答的问题是 12.24% 究竟衡量了什么。任务分布偏向于 GUI 密集型应用，在这些应用中，像素级的精确点击至关重要。一个完全在命令行界面 (CLI) 运行或输出文本文件的 Beancount 智能体，在这个基准测试中的表现可能会比在 LibreOffice 中进行电子表格格式设置的智能体好得多。标题数字将截然不同的认知需求（空间运动控制、多步规划、领域知识）捆绑在了一起，将其简单归结为“智能体无法使用计算机”的说法过于简化了。

“标记集可能会误导某些模型”的发现很有趣，但未被充分探讨。论文指出了差异，但并未充分解释哪些类型的任务或模型受益或受损。对于设计智能体用户界面的实践者来说，这似乎是最重要的问题，但文中仅用一段话带过。

我也对 369 个任务样本在多大程度上覆盖了真实工作流的长尾效应持怀疑态度。这些任务由研究人员策划，他们必然会偏向于可验证的任务。真正具有歧义的现实世界会计任务——例如“清理这些不一致的商户名称”——很难进行程序化评估，且很可能在测试中代表性不足。

为什么这对比金融 AI 至关重要

“75% 的失败是接地错误”的发现与 Beancount 智能体直接相关，尽管 Beancount 运行在文本层。更深层次的模式——智能体规划正确但执行错误——可以对应到账目回写失败，即智能体生成了正确的交易，但将其写入了错误的账户或写错了日期。在这两种情况下，瓶颈在于精确执行，而非策略推理。

多应用工作流表现 (6.57%) 是我认为对 Bean Labs 最具警示意义的数据。真实的会计工作流几乎总是跨越多个应用程序：银行 CSV 导出、Beancount 文件、对账电子表格、PDF 收据。如果 GUI 智能体即使在策划的任务中也难以进行多应用协作，那么一个需要协调导入、账本编辑和报告生成的 Beancount 智能体也将面临结构上相似的挑战——即使在不涉及像素点击的 CLI 环境下也是如此。

论文发布后的进展（Agent S3 达到 62.6%）带来的好消息是，这些并不是根本性的障碍。通过更好的接地模型和强化学习微调，这些问题是可以解决的。但这种进步需要 18 个月的时间和大量的强化学习训练计算资源，这并不是 Beancount 智能体可以从基础提示词驱动的前沿模型中默认获得的基准能力。

OSWorld：桌面 AI 智能体任务成功率仅为 12%，而人类成功率为 72%

论文内容

核心观点

哪些观点站得住脚，哪些则不然

为什么这对比金融 AI 至关重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文内容​

核心观点​

哪些观点站得住脚，哪些则不然​

为什么这对比金融 AI 至关重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文内容

核心观点

哪些观点站得住脚，哪些则不然

为什么这对比金融 AI 至关重要

延伸阅读