AI Agents

Tout sur AI Agents

Un article

Autonomous AI agent benchmarks and evaluations for real-world task completion

Retour à tous les articles Voir tous les tags

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.

Lancez-vous avec Beancount.io

Prenez le contrôle de vos finances grâce à notre système de comptabilité en partie double open-source. Commencez votre grand livre aujourd'hui.

Commencer gratuitement Voir les tarifs

Construit avec transparence • Versionné • Propulsé par l'IA

Tout sur AI Agents

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales