Aller au contenu principal
AI Agents

Tout sur AI Agents

Un article
Autonomous AI agent benchmarks and evaluations for real-world task completion

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.