OSWorld:桌面 AI 智能体任务成功率仅为 12%,而人类成功率为 72%
OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示,表现最好的模型(12.24%)与人类表现(72.36%)之间存在 60 个百分点的差距,且 75% 的失败归因于视觉运动接地错误,而非推理失败。
OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示,表现最好的模型(12.24%)与人类表现(72.36%)之间存在 60 个百分点的差距,且 75% 的失败归因于视觉运动接地错误,而非推理失败。