WebArena: Webエージェントの真の能力と限界を測定する812タスクのベンチマーク
WebArenaの812タスク・ベンチマークは、昨日取り上げたWorkArenaの直接の前身です。これらを立て続けに読むことで、重要な違いが明確になります。WorkArenaが単一のプラットフォーム(ServiceNow)におけるエンタープライズ知識労働を測定するのに対し、WebArenaは現実的なオープンソフトウェア全体におけるWebエージェント能力の一般的なベースラインを確立します。将来的にブラウザ環境で動作するBeancountエージェントを検討する前に、そのベースラインを正確に理解したいと考えています。
論文
Zhouら(ICLR 2024, arXiv:2307.13854)は、4つのセルフホスト型Webサイト(Magento eコマースストア、Postmillソーシャルフォーラム、GitLabインスタンス、Magento CMS管理ポータル)と、OpenStreetMapミラーおよびオフラインWikipediaコピーを補完した、812タスクの再現可能なベンチマークであるWebArenaを発表しました。MiniWoB++のような合成されたトイタスクとは異なり、WebArenaの各サイトは、約9万点の製品、12万7,000以上の投稿を持つ95のサブレディット、1,000の開発者アカウントにわたる300のGitリポジトリといった、本物のスケールを持つ実際の大規模オープンソースソフトウェアを実行しています。タスクは、情報探索、サイトナビゲーション、コンテンツ/設定変更の3つのカテゴリに及び、「エージェントが期待される操作手順に従ったか」ではなく、意図した結果がデータベースに反映されているか、あるいは正確/曖昧な回答と一致しているかという「機能的正当性」に基づいて評価されます。
主なアイデア
- GPT-4は14.41%に到達、人間は78.24%に到達。 その差は63.8パーセンテージポイントです。GPT-3.5のスコアは8.75%、Google Text-Bison-001のベースラインはわずか5.05%でした。Chain-of-Thought(思考の連鎖)プロンプティングはGPT-4で約2.3ポイント上乗せされますが、劇的な変化ではありません。
- 最も一般的な失敗は「偽の不可能(false impossibility)」。 GPT-4は、達成可能なタスクの約54.9%(812タスク中428タスク)を誤って実行不能と判断し、試行する代わりに [N/A] を返しました。これが支配的な失敗モードであり、操作シーケンスのノイズやツールのエラーではあ りません。
- 実行プロセスではなく機能的正当性を評価。 評価では、完全一致、必須キーワードチェック、LLMベースの曖昧一致、およびデータベースクエリやJavaScriptによるプログラム的な検証の4つの証拠タイプを確認します。これにより、言い換えに対して堅牢な指標となりますが、依然として曖昧なタスク指定の影響を受けやすい側面があります。
- コンテナ化されたセルフホスティングによる再現性。 4つのサイトはすべてDockerコンテナとして提供されており、これは後のベンチマーク(WorkArena、OSWorld)でも踏襲されています。状態をリセットし、同一の開始条件を保証できます。これはライブWebスクレイピングでは不可能なことです。
- タスクテンプレートによる暗記の回避。 241のテンプレートから812の具体化されたタスク(各3.3のバリエーション)が生成されます。これはある程度役立ちますが、Webナビゲーションの原則ではなくテンプレートのパターンをモデルが学習してしまうことを完全に防ぐものではありません。
- 実際のDOMの複雑さはMiniWoB++より桁違いに大きい。 WebArenaの典型的なページは数千トークンにシリアル化されます。関連研究では、複雑なポータルビューでDOMツリーが10万トークンを超えることも報告されています。
何が有効で、何がそうでないか
中心となる手法は健全です。実際のソフトウェア、アウトカムベースの評価、および再現可能な環境はまさに正しい方向です。14.41%という数字は独立した再現実験を通じても裏付けられており、失敗の分類(偽の実行不能、ループ行動、臆病な拒絶)は、その後の複数の論文でも確認されています。
しかし、限界も現実的です。第一に、241のテンプレートから派生した812のタスクということは、ベンチマークが有限で体系的にカバー可能であることを意味します。テンプレートパターンを暗記したエージェントは、汎用化することなく過学習する可能性があります。WebArena Verified(2024–2025)では、不整合な評価チェックが発見・修正されました。これは、元の14.41%という数字の一部が、純粋な能力ではなく評価のノイズを反映している可能性があることを示唆しています。第二に、4つのWebサイトタイプ(eコマース、フォーラム、コードホスティング、CMS)は妥当ですが、Web全体の原則的なサンプルではありません。エンタープライズSaaSも、入力項目の多い政府ポータルも、銀行のインターフェースもありません。第三に、このベンチマークは安全性と信頼性を完全に無視しています。「この投稿を削除せよ」というタスクで、正しい投稿を削除しても、他の10個の投稿を削除しても、エージェントは同じスコアを獲得します。ST-WebAgentBench (2024) は、まさにこのギャップを埋めるために設計されました。
偽の実行不能に関する発見は、最も興味深く、かつ過小評価されている結果です。これは、LLMが不確実な状況下で行動を避けるように調整されていること(人間によるフィードバックで学習したモデルとしては妥当な先験的性質)を示唆していますが、その保守的な調整は、行動しないこと自体がコストのかかるエラーとなるエージェントタスクにおいては、まさに逆効果であることを示しています。
なぜこれが財務AIにとって重要なのか
14.41%と78.24%の差は、特別なエンジニアリングなしに現在のBeancountブラウザエージェントが達成できることを直接的に物語っています。GPT-4が製品の注文、GitLabイシューの作成、フォーラムへの投稿といった日常的なWebタスクを確実に完了できないのであれば、監視なしにFavaのWeb UIを操作させることは到底信頼できません。これは絶望を勧めるものではなく、SWE-agentがコード編集で示したような、目的別に構築されたインターフェースや構造化されたアクションスペースが必要であることを動機づけるものです。教訓とすべきは、汎用タスクで測定された生のLLM能力が重要なのではなく、エージェントをサポートするために環境がどれだけ設計されているかが重要だということです。
偽の実行不能問題は、会計においても直接的な類似点があります。確認する代わりに「このトランザクションが重複しているかどうか判断できません」と返すエージェントは、全く同じ「保守的だが誤った」方法で失敗しています。書き戻し(Write-back)エージェントには、棄権するので はなくコミットを強制する明示的な実行可能性チェックステップが必要であり、誤ったコミットを回復可能にするためのロールバック・セーフティネットと組み合わせる必要があります。
Beancountに関して言えば、WebArenaのCMS + 管理ポータル部分(Magento admin)は、FavaのWeb UIに最も近い構造的類似物です。複雑なフォーム、ネストされたナビゲーション、セッションをまたいで持続する状態を持つマルチページの管理インターフェースです。この種のタスクにおける14.41%という上限を、より優れた結果を実証できるまでは、デフォルトの前提条件として扱うべきでしょう。
次に読むべきもの
- VisualWebArena (Koh et al., 2024, arXiv:2401.13649) — スクリーンショットを使用するマルチモーダルエージェントにWebArenaを拡張。Favaではすべての関連状態がDOMにあるわけではないため、重要です。
- OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) — 完全なデスクトップ環境のベンチマーク。最高性能のマルチモーダルモデルで12.24%(人間は72.36%)であり、能力のギャップがブラウザを超えてGUIオートメーション全体に広がっていることを示しています。
- ST-WebAgentBench (arXiv:2410.06703) — WebArenaにおける安全性の欠如に直接対処し、Webエージェントがタスクを完了する際にポリシーの制約を尊重するかどうかを測定します。
