Aller au contenu principal

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

· 6 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

Hier, j'ai lu WebArena, qui plaçait les agents web autonomes à environ 14 % de réussite par rapport à une base humaine de 78 %. OSWorld (Xie et al., NeurIPS 2024) pose la même question pour l'ordinateur complet : Ubuntu, Windows, macOS, et de réelles applications GUI. La réponse est, si possible, encore plus modeste — et le mode d'échec est suffisamment différent pour être intéressant en soi.

L'article

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld construit un benchmark de 369 tâches basées sur des applications de bureau réelles : LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC, ainsi que des workflows multi-applications. Chaque tâche est accompagnée d'un script d'évaluation programmatique qui vérifie l'état réel du système après l'exécution — pas d'heuristiques de correspondance de chaînes, pas d'IA comme juge. La configuration utilise des machines virtuelles afin que les tâches commencent à partir d'un état reproductible, et elle couvre les trois principaux systèmes d'exploitation.

Les auteurs testent une gamme de modèles de pointe — GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent — à travers quatre configurations d'entrée : capture d'écran uniquement, arbre d'accessibilité uniquement, capture d'écran plus arbre d'accessibilité, et Set-of-Marks (SoM, où les éléments interactifs sont superposés avec des étiquettes numériques avant que le modèle n'agisse).

Idées clés

  • Les humains sur des tâches inconnues réussissent dans 72,36 % des cas. Le meilleur modèle au moment de la soumission atteint 12,24 %. L'écart est d'environ 60 points de pourcentage.
  • La performance avec capture d'écran seule pour les modèles de tête (GPT-4V, Gemini-Pro-Vision) se situe autour de 5,26 %–5,80 % — ce qui signifie que l'ajout d'un contexte structuré double environ le succès, mais laisse toujours 87 % d'échecs.
  • Les tâches de workflow multi-applications sont la catégorie la plus difficile avec un plafond de 6,57 %, comparé aux tâches OS/CLI où les interfaces textuelles facilitent l'ancrage.
  • L'arbre d'accessibilité et le Set-of-Marks aident, mais leur bénéfice dépend du modèle : les auteurs rapportent qu'ils peuvent aussi introduire de la confusion en submergeant le modèle avec une structure non pertinente.
  • Les progrès post-publication ont été rapides — Agent S (GPT-4o, mémoire hiérarchique) a atteint 20,58 % ; ARPO basé sur le RL a poussé jusqu'à 29,9 % ; Agent S3 (Simular AI, 2025) revendique 62,6 % dans le paramètre à 100 étapes, approchant la parité humaine. Mais la plupart de ces gains proviennent de meilleurs modèles d'ancrage et d'un réglage fin par RL, et non des modèles LLM de base testés à l'origine par OSWorld.
  • Analyse d'erreurs de 550 échecs : plus de 75 % sont des imprécisions de clic de souris — l'agent raisonne correctement mais clique sur le mauvais pixel. Ce n'est pas un échec de raisonnement ; c'est un échec d'ancrage visuomoteur.

Ce qui tient la route — et ce qui ne tient pas

La conception du benchmark est véritablement rigoureuse. L'évaluation basée sur l'exécution sur de vraies machines virtuelles avec 134 scripts d'évaluation distincts élimine les jugements flous qui empoisonnent de nombreux benchmarks d'agents. C'est une contribution méthodologique importante et c'est pourquoi le chiffre (12,24 %) est crédible.

La question la plus difficile est de savoir ce que 12,24 % mesure réellement. La distribution des tâches est biaisée vers des applications lourdes en interface graphique où le clic précis au pixel près compte énormément. Un agent Beancount qui fonctionnerait entièrement en ligne de commande (CLI) ou émettrait des fichiers texte obtiendrait probablement de bien meilleurs résultats sur ce benchmark qu'un agent effectuant du formatage de feuille de calcul dans LibreOffice. Le chiffre global regroupe des exigences cognitives très différentes — contrôle moteur spatial, planification multi-étapes, connaissances du domaine — et l'attribuer à une seule affirmation du type « les agents ne savent pas utiliser les ordinateurs » est une simplification excessive.

La conclusion selon laquelle « le set-of-marks peut induire certains modèles en erreur » est intéressante mais peu explorée. L'article note la variance sans expliquer pleinement quels types de tâches ou de modèles sont aidés ou pénalisés. Cela semble être la question la plus importante pour les praticiens concevant des interfaces d'agents, et elle ne fait l'objet que d'un paragraphe.

Je suis également sceptique quant à la capacité de l'échantillon de 369 tâches à couvrir la longue traîne des workflows réels. Les tâches sont sélectionnées par des chercheurs qui s'orientent nécessairement vers des tâches vérifiables. Les tâches comptables réelles véritablement ambiguës — « nettoyer ces noms de commerçants incohérents » — sont difficiles à évaluer de manière programmatique et sont probablement sous-représentées.

Pourquoi c'est important pour l'IA financière

Le constat selon lequel 75 % des échecs sont des erreurs d'ancrage est directement pertinent pour les agents Beancount, même si Beancount vit au niveau textuel. Le schéma profond — les agents planifient correctement mais exécutent incorrectement — se retrouve dans les échecs d'écriture différée dans le grand livre (write-back), où un agent génère la bonne transaction mais l'écrit sur le mauvais compte ou avec une date inversée. Dans les deux cas, le goulot d'étranglement est l'exécution précise, et non le raisonnement stratégique.

La performance des workflows multi-applications (6,57 %) est le chiffre que je trouve le plus sobre pour Bean Labs. Les workflows comptables réels s'étendent presque toujours sur plusieurs applications : un export CSV bancaire, un fichier Beancount, une feuille de calcul de rapprochement, un reçu PDF. Si les agents GUI luttent de manière catastrophique lors de la coordination multi-applications, même sur des tâches sélectionnées, un agent Beancount qui doit orchestrer des importations, des modifications de registre et la génération de rapports fait face à un défi structurel similaire — même dans un contexte CLI où il n'y a pas de clics de pixels.

La bonne nouvelle provenant de la trajectoire post-article (Agent S3 à 62,6 %) est que ce ne sont pas des barrières fondamentales. Elles sont solubles avec de meilleurs modèles d'ancrage et un réglage fin par RL. Mais ces progrès ont nécessité 18 mois et une puissance de calcul importante pour l'entraînement RL, ce qui n'est pas le niveau de capacité de base qu'un agent Beancount peut attendre d'un modèle de pointe utilisé par simple prompt.

Que lire ensuite

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — étend OSWorld aux appareils Android avec des tâches paramétrées dynamiquement, pertinent pour les interfaces Beancount mobiles.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — adapte OSWorld à Windows avec plus de 150 tâches ; valide indépendamment que l'écart persiste sur tous les systèmes d'exploitation.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — architecture compositionnelle généraliste-spécialiste qui fait progresser l'état de l'art de manière significative ; il est utile de comprendre cette architecture avant de concevoir un planificateur multi-étapes Beancount.