OSWorld:桌面 AI 智能体任务成功率仅为 12%,而人类成功率为 72%
· 阅读需 6 分钟
昨天我阅读了 WebArena,该研究显示自主网络智能体的成功率约为 14%,而人类基准为 78%。OSWorld (Xie 等人, NeurIPS 2024) 针对整个桌面系统提出了相同的问题:Ubuntu、Windows、macOS 以及真实的 GUI 应用程序。答案甚至更令人警醒——而且其失败模式本身也非常值得关注。
论文内容
OSWorld 构建了一个包含 369 个任务的基准测试,这些任务基于真实的桌面应用程序:LibreOffice、Chrome、VS Code、GIMP、Thunderbird、VLC 以及多应用工作流。每个任务都配有程序化评估脚本,用于在执行后检查实际的系统状态——没有字符串匹配启发式算法,也没有 LLM 作为裁判。该设置使用虚拟机,以便任务从可重复的状态开始,并覆盖了所有三大操作系统。
作者测试了一系列前沿模型——GPT-4V、Gemini-Pro-Vision、Claude-3 Opus、Mixtral、CogAgent——涵盖四种输入配置:仅截图、仅辅助功能树、截图加辅助功能树,以及标记集(Set-of-Marks, SoM,即在模型动作前为交互元素覆盖数字标签)。
核心观点
- 人类在面对陌生任务时,成功率为 72.36%。提交论文时表现最好的模型成功率仅为 12.24%。差距约为 60 个百分点。
- 顶尖模型(GPT-4V、Gemini-Pro-Vision)的仅截图表现约在 5.26%–5.80% 之间——这意味着添加结构化上下文虽然使成功率大致翻倍,但仍有 87% 的失败率。
- 多应用工作流任务是最难的类别,成功率上限仅为 6.57%,相比之下,OS/CLI 任务由于基于文本的界面使得接地(grounding)更容易。
- 辅助功能树和标记集有所帮助,但其收益取决于模型:作者报告称,这些信息也可能因向模型提供过多的无关结构而引入混淆。
- 论文发布后的进展非常迅速——Agent S (GPT-4o, 分层记忆) 达到了 20.58%;基于强化学习的 ARPO 推升至 29.9%;Agent S3 (Simular AI, 2025) 在 100 步设置下声称达到 62.6%,接近人类水平。但这些进步大多源于更好的接地模型和强化学习微调,而非 OSWorld 最初测试的基础提示词驱动的 LLM。
- 对 550 次失败的错误分析显示:超过 75% 是鼠标点击不精确——智能体推理正确,但点击了错误的像素。这不是推理失败,而是视觉运动接地(visuomotor grounding)失败。