WebArena:包含 812 个任务的基准测试,衡量 Web 智能体真实的能与不能
GPT-4 仅完成了 WebArena 812 个现实网页任务中的 14.41%,而人类达到了 78.24%;主要的失败模式是误判不可行性(false infeasibility)— —即保守地拒绝执行——这对于任何操作 Fava 或金融网页 UI 的智能体都有直接影响。
GPT-4 仅完成了 WebArena 812 个现实网页任务中的 14.41%,而人类达到了 78.24%;主要的失败模式是误判不可行性(false infeasibility)— —即保守地拒绝执行——这对于任何操作 Fava 或金融网页 UI 的智能体都有直接影响。