OSWorld:デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功
昨日、WebArenaを読みましたが、そこでは自律型Webエージェントの成功率は約14%で、人間のベースラインである78%に及びませんでした。OSWorld(Xie et al., NeurIPS 2024)は、Ubuntu、Windows、macOSといったフルデスクトップの実際のGUIアプリケーションを対象に、同様の問いを投げかけています。その答えは、控えめに言ってもさらに厳しいものであり、失敗の形態もそれ自体が興味深いほどに異なっています。
論文について
OSWorldは、LibreOffice、Chrome、VS Code、GIMP、Thunderbird、VLC、および複数アプリケーションを跨ぐワークフローなど、実際のデスクトップアプリケーションに根ざした369のタスクでベンチマークを構築 しています。各タスクにはプログラムによる評価スクリプトが付属しており、実行後の実際のシステム状態をチェックします。文字列の一致を判定するヒューリスティックや、LLMによる評価(LLM-as-judge)は使用されません。タスクが再現可能な状態から開始されるよう仮想マシンを使用しており、主要な3つのオペレーティングシステムすべてを網羅しています。
著者らは、GPT-4V、Gemini-Pro-Vision、Claude-3 Opus、Mixtral、CogAgentなど、一連の最先端モデルを、4つの入力構成(スクリーンショットのみ、アクセシビリティツリーのみ、スクリーンショットとアクセシビリティツリーの併用、および操作要素に数値ラベルをオーバーレイするSet-of-Marks(SoM))でテストしました。
主なポイント
- 人間は見慣れないタスクにおいて72.36%の確率で成功します。投稿時点での最高モデルの成功率は12.24%でした。その差は約60ポイントに達します。
- 上位モデル(GPT-4V、Gemini-Pro-Vision)のスクリーンショットのみのパフォーマンスは約5.26%〜5.80%です。つまり、構造化されたコンテキストを追加することで成功率はほぼ倍増しますが、それでも87%が失敗に終わっています。
- 複数アプリケーションを跨ぐワークフロータスクは最も難易度が高く、成功率の上限は6.57%でした。これに対し、OS/CLIタスクはテキストベースのインターフェースであるため、グラウンディングが比較的容易です。
- アクセシ ビリティツリーとSet-of-Marksは助けになりますが、その効果はモデルに依存します。著者らは、無関係な構造でモデルを圧倒し、混乱を招く可能性もあると報告しています。
- 論文公開後の進展は急速です。Agent S(GPT-4o、階層型メモリ)は20.58%に達し、強化学習ベースのARPOは29.9%まで押し上げました。Agent S3(Simular AI、2025年)は100ステップの設定で62.6%を記録し、人間に近づいたと主張しています。しかし、これらの成果の多くは、OSWorldが当初テストしたベースのプロンプトによるLLMではなく、より優れたグラウンディングモデルや強化学習による微調整(ファインチューニング)から得られたものです。
- 550件の失敗事例の分析によると、75%以上がマウスククリックの不正確さによるものでした。エージェントは正しく推論していても、間違ったピクセルをクリックしています。これは推論の失敗ではなく、視覚運動グラウンディング(visuomotor grounding)の失敗です。
妥当な点とそうでない点
このベンチマークの設計は非常に厳密です。134の異なる評価スクリプトを用いた実際の仮想マシン上での実行ベースの評価は、多くのエージェントベンチマークを悩ませている曖昧な判定を排除しています。これは重要な方法論的貢献であり、12.24%という数字が信頼できる理由でもあります。
より難しい問いは、12.24%が実際に何を測定しているかということです。タスクの分布は、ピクセル単位の正確なクリックが非常に重要となるGUI中心のアプリケーションに偏っています。CLIで完全に動作するか、テキストファイルを生成するBeancountエージェントであれば、LibreOfficeでスプレッドシートの書式設定を行うエージェントよりも、このベンチマークで遥かに高いパフォーマンスを発揮するでしょう。見出しの数字は、空間的な運動制御、多段階の計画、ドメイン知識といった全く異なる認知的要求をひとまとめにしており、それを単一の「エージェントはコンピューターを使えない」という主張に帰結させるのは単純化しすぎです。
「Set-of-Marksが一部のモデルを誤解させる可能性がある」という発見は興味深いですが、十分に掘り下げられていません。論文では、どのようなタスクやモデルが助けられ、どのような場合に悪影響があるのかを十分に説明せずに、分散に言及しています。これはエージェントUIを設計する実務家にとって最も重要な問いであるように思われますが、わずか1段落しか割かれていません。
また、369のタスクサンプルが実際のワークフローのロングテールをどの程度カバーしているかについても懐疑的です。タスクは研究者によって厳選されており、必然的に検証可能なタスクに偏っています。「これらの一貫性のない加盟店名をクリーンアップする」といった、真に曖昧な現実世界の会計タスクは、プログラムによる評価が難しく、過小評価されている可能性があります。