跳到主要内容

WebArena:包含 812 个任务的基准测试,衡量 Web 智能体真实的能与不能

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

WebArena 的 812 任务基准测试是我昨天介绍的 WorkArena 的直接前身。连续阅读这两篇论文可以明确一个关键区别:WorkArena 衡量的是在单一平台(ServiceNow)上的企业知识工作,而 WebArena 则建立了跨现实开源软件的通用 Web 智能体能力底线。在考虑最终将在浏览器环境中运行的 Beancount 智能体之前,我希望精确地理解这一底线。

论文简介

2026-06-14-webarena-realistic-web-environment-autonomous-agents

Zhou 等人(ICLR 2024, arXiv:2307.13854)推出了 WebArena,这是一个可复现的基准测试,包含分布在四个自托管网站上的 812 个任务:Magento 电子商务商店、Postmill 社交论坛、GitLab 实例和 Magento CMS 管理门户,并辅以 OpenStreetMap 镜像和离线维基百科副本。与 MiniWoB++ 的合成玩具任务不同,WebArena 的每个站点都运行着具有真实规模的真实开源软件:大约 90,000 个产品、95 个版块(含有超过 127,000 条帖子)以及跨越 1,000 个开发人员账户的 300 个 Git 仓库。任务涵盖三大类——信息检索、站点导航以及内容/配置更改——并根据功能正确性进行评估:即预期的结果是否出现在数据库中或是否匹配精确/模糊答案,而不是智能体是否遵循了预期的操作序列。

核心观点

  • GPT-4 达到 14.41%;人类达到 78.24%。 差距为 63.8 个百分点。GPT-3.5 得分为 8.75%,而 Google Text-Bison-001 基准得分仅为 5.05%。思维链(CoT)提示为 GPT-4 增加了约 2.3 个百分点——有帮助但并非变革性的。
  • 最常见的失败是误判不可能(false impossibility)。 GPT-4 错误地将大约 54.9% 的可完成任务(812 个中的 428 个)标记为不可行,返回 [N/A] 而不进行尝试。这是主要的失败模式,而非嘈杂的操作序列或工具错误。
  • 功能正确性而非轨迹回放。 评估检查四种证据类型:精确匹配、必须包含的关键字检查、基于 LLM 的模糊匹配,以及通过数据库查询或 JavaScript 进行的程序化验证。这使得指标对同义转述具有鲁棒性,但仍易受模糊任务说明的影响。
  • 容器化自托管实现可复现性。 所有四个站点都以 Docker 容器形式交付,这也是后来的基准测试(WorkArena, OSWorld)所效仿的。你可以重置状态并保证相同的初始条件,这在实时网页抓取中是不可能实现的。
  • 任务模板避免盲目记忆。 241 个模板生成了 812 个实例化的任务(每个模板约 3.3 个变体),这在一定程度上有所帮助,但不能阻止坚定的模型学习模板模式而非网页导航原则。
  • 真实的 DOM 复杂度比 MiniWoB++ 大几个数量级。 一个典型的 WebArena 页面序列化后包含数千个 token;相关研究报告称,复杂门户视图的 DOM 树超过 100,000 个 token。

哪些经得起推敲,哪些不能

核心方法论是可靠的:真实的软件、基于结果的评估和可复现的环境完全正确。14.41% 这个数字在独立复现中被证明是持久的,失败分类法(误判不可行性、循环行为、畏缩拒绝)也被多篇后续论文确认。

然而,局限性也是真实的。首先,由 241 个模板衍生的 812 个任务意味着基准是有限的且可以系统覆盖的;一个记住了模板模式的智能体可能会在没有泛化能力的情况下产生过拟合。WebArena Verified (2024–2025) 发现并修复了未对齐的评估检查,这意味着原始的 14.41% 数据中可能包含一些评估噪音而非纯粹的能力体现。其次,四种网站类型——电子商务、论坛、代码托管、CMS——虽然看似合理,但并非 Web 的原则性抽样。这里没有企业级 SaaS,没有表单繁重的政府门户,也没有银行界面。第三,该基准完全忽略了安全性和可信任性:一个成功完成“删除此帖”任务的智能体,无论它是删除了正确的帖子还是另外删除了十个帖子,都会获得相同的分数。ST-WebAgentBench (2024) 专门设计用于填补这一空白。

误判不可行性的发现是最有趣且未被充分重视的结果。它表明 LLM 被校准为在不确定性下避免行动——这对于在人类反馈上训练的模型来说是一个合理的先验——但这种保守的校准对于智能体任务来说恰恰是错误的,因为不采取行动本身就是一个代价高昂的错误。

为什么这对金融 AI 很重要

14.41% 与 78.24% 之间的差距直接衡量了 Beancount 浏览器智能体在没有专门工程设计的情况下,目前能达到什么水平。如果 GPT-4 不能可靠地完成常规网页任务——订购产品、创建 GitLab issue、在论坛发帖——那么它肯定不能在没有监督的情况下被信任去操作 Fava 网页 UI。这不是在散布绝望,而是激发了像 SWE-agent 所展示的那种针对代码编辑有效的专用界面和结构化操作空间。正确的教训是,在通用任务上衡量的原始 LLM 能力并不重要;重要的是环境在多大程度上被设计为支持智能体。

误判不可行性的问题在会计领域有一个直接的类比:一个返回“我无法确定此交易是否为重复交易”而不是去检查的智能体,正以同样的保守但错误的方式失败。回写智能体(Write-back agents)需要一个明确的可行性检查步骤,强制其做出承诺而非弃权,并配合回滚安全网,以便在承诺错误时可以恢复。

专门针对 Beancount 而言,WebArena 中的 CMS + 管理门户部分(Magento admin)是 Fava 网页 UI 最接近的结构类比:一个具有复杂表单、嵌套导航和跨会话持久状态的多页面管理界面。在该类任务上 14.41% 的天花板,是我在展示出更好的结果之前应该采取的默认假设。

延伸阅读

  • VisualWebArena (Koh et al., 2024, arXiv:2401.13649) —— 使用截图将 WebArena 扩展到多模态智能体,这对 Fava 很重要,因为并非所有相关状态都在 DOM 中。
  • OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) —— 全桌面环境基准测试;最出色的多模态模型得分为 12.24%,人类为 72.36%,将能力差距从浏览器扩展到了 GUI 自动化。
  • ST-WebAgentBench (arXiv:2410.06703) —— 直接解决了 WebArena 中的安全性缺口,衡量 Web 智能体在完成任务时是否遵守策略约束。