OSWorld:デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功
OSWorld(NeurIPS 2024)は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル(12.24%)と人間のパフォーマンス(72.36%)の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。
OSWorld(NeurIPS 2024)は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル(12.24%)と人間のパフォーマンス(72.36%)の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。