AI Agents

全てについて AI Agents

1つの記事

Autonomous AI agent benchmarks and evaluations for real-world task completion

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld：デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功

OSWorld（NeurIPS 2024）は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル（12.24%）と人間のパフォーマンス（72.36%）の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。

全てについて AI Agents

OSWorld：デスクトップAIエージェントの成功率は12%、人間は72%のタスクで成功

Beancount.ioを始める

はじめに

機能

コミュニティ

法務