WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles
WorkArena++ (arXiv:2407.05291, NeurIPS 2024) étend le benchmark WorkArena original à 682 tâches d'entreprise compositionnelles qui nécessitent d'enchaîner plusieurs flux de travail — précisément le type de travail de la connaissance à étapes multiples qu'un agent d'automatisation Beancount devrait gérer. Je le lis actuellement car le journal original de WorkArena (LOG-061) laissait ouverte la question de savoir ce qui se passe lorsque l'on compose des tâches atomiques en flux de travail réels. La réponse, comme cet article le montre clairement, est que tous les LLM actuels s'effondrent totalement.
L'article
Boisvert et al. chez ServiceNow Research prennent les composants de tâches atomiques du WorkArena original — remplissage de formulaires, filtrage de listes, recherche dans la base de connaissances, lecture de tableaux de bord — et les composent en flux de travail d'entreprise réalistes à étapes multiples. Le benchmark s'exécute entièrement à l'intérieur d'une instance ServiceNow en direct via l'environnement BrowserGym, fournissant aux agents des observations HTML et des entrées de captures d'écran optionnelles.
La décision structurelle clé est une hiérarchie de difficulté à trois niveaux. L1 est le WorkArena original : des tâches atomiques à action unique comme « filtrer cette liste par statut = Fermé ». L2 introduit des tâches compositionnelles avec des instructions explicites étape par étape — l'agent reçoit une procédure complète dans le chat mais doit exécuter une chaîne de sous-tâches à travers différents modules ServiceNow sans perdre le fil. L3 est la version difficile : l'agent ne reçoit qu'un but implicite (« intégrer un nouvel employé ») et doit d'abord récupérer la procédure pertinente dans la base de connaissances de l'entreprise avant de planifier et d'exécuter les étapes. C'est exactement ainsi que fonctionnent les vrais travailleurs de la connaissance.
Les auteurs incluent également un mécanisme pour générer automatiquement des traces d'observation-action de vérité terrain à partir de solutions d'oracle, permettant un réglage fin supervisé sans annotation manuelle.
Idées clés
- Les humains résolvent 93,9 % des tâches composites ; GPT-4o en résout 2,1 %. Ce n'est pas un échec de compréhension du langage — c'est un échec de planification et d'exécution à grande échelle.
- Aucun modèle ne termine de tâche L3. L'exigence de récupérer une procédure, de planifier les étapes et de les exécuter sans guidage explicite n'est absolument pas résolue par tous les modèles testés, y compris GPT-4o-v (la variante capable de vision).
- Seuls GPT-4o et GPT-4o-v réussissent un sous-ensemble de tâches L2, principalement des sous-tâches de mémorisation. Les agents basés sur Llama3 échouent largement aux niveaux L2 et L3.
- Le réalisme des tâches L3 est le choix de conception clé : recevoir un but implicite comme « intégrer un nouvel employé » sans procédure — et devoir ensuite la chercher — correspond à la manière dont les employés reçoivent réellement leurs missions en entreprise.
- Cinq dimensions de capacités sont testées : planification sous contraintes, recherche d'informations, raisonnement basé sur les données, mémoire séquentielle et reconnaissance des tâches irréalisables.
- Modes d'échec documentés : hallucinations concernant les éléments de l'interface utilisateur, incapacité à maintenir des plans à étapes multiples sur un contexte long et échec du recoupement d'informations provenant de documents distincts.
Ce qui tient la route — et ce qui ne la tient pas
Le titre annonçant 93,9 % contre 2,1 % est frappant mais explicable mécaniquement. Les niveaux L2 et L3 exigent qu'un modèle se souvienne de ce qu'il a fait trois étapes auparavant, corrèle les informations extraites d'un document avec un formulaire qu'il s'apprête à remplir, et sache quand une sous-étape dépend de l'achèvement d'une précédente. Ce ne sont pas des actions exotiques — les humains les font sans effort — mais les agents LLM actuels échouent sur la coordination.
Ce que je trouve le plus précieux ici est la conception L2 contre L3. Le L2 fournit une procédure à l'agent ; le L3 non. L'effondrement des performances entre les deux isole exactement une capacité : la substitution de la recherche-plus-planification à l'exécution d'instructions explicites. C'est la partie difficile du travail de connaissance autonome, et le benchmark l'expose clairement.
Ce que l'article ne fait pas, c'est démontrer que le mécanisme de trace d'entraînement aide réellement. Les auteurs fournissent l'infrastructure pour générer des données de réglage fin et affirment que les modèles peuvent être entraînés dessus — mais ils ne rapportent pas de résultats de ces expériences. Sans cet essai, WorkArena++ reste un benchmark sur lequel tous les agents actuels échouent, sans voie d'amélioration démontrée. Cela limite son utilité à court terme comme cible d'entraînement.
La dépendance à ServiceNow limite également la généralisation. ServiceNow possède une interface inhabituellement structurée et bien documentée. Si les agents échouent ici, ils échoueront encore plus sur les systèmes d'entreprise plus désordonnés que la plupart des organisations utilisent réellement.
Pourquoi cela compte pour l'IA financière
Le lien avec l'automatisation de Beancount est direct. Un agent comptable autonome effectue par défaut un travail de type L3 : un utilisateur dit « rapproche les dépenses du mois dernier », et l'agent doit récupérer la structure de compte pertinente dans le grand livre, planifier les écritures à inspecter, effectuer des recoupements avec les données bancaires importées et exécuter les opérations d'écriture en retour — le tout sans guide étape par étape. WorkArena++ chiffre à quel point les agents actuels gèrent mal ce schéma.
Le mécanisme de trace d'entraînement est également immédiatement applicable. Les tâches Beancount ont des solutions d'oracle déterministes — les écritures de journal correctes sont vérifiables — ce qui signifie que des traces de vérité terrain pourraient être générées à grande échelle pour affiner un agent spécialisé dans la comptabilité. C'est précisément ce que WorkArena++ permet de faire sans l'exploiter dans l'article lui-même. C'est plus un plan de conception qu'un problème résolu.
Le taux de réussite nul en L3 est le point d'étalonnage le plus utile pour Bean Labs : même dans un environnement d'entreprise contrôlé avec des données propres et une interface bien structurée, les agents de pointe ne peuvent pas encore gérer les tâches compositionnelles à but implicite. Cet écart est l'endroit où réside la recherche intéressante.
Que lire ensuite
- TheAgentCompany (arXiv:2412.14161) — 175 tâches au sein d'une entreprise logicielle simulée avec de vrais outils internes (GitLab, RocketChat) ; le meilleur agent en complète environ 30 % ; un cadre d'entreprise plus naturaliste que ServiceNow.
- τ²-bench (arXiv:2506.07982) — étend τ-bench à des environnements à double contrôle où l'agent et l'utilisateur peuvent modifier simultanément un état partagé ; directement pertinent pour les sessions Beancount où les utilisateurs et les agents co-éditent un grand livre.
- CRMArena-Pro (arXiv:2505.18878) — évaluation holistique des agents LLM à travers des scénarios commerciaux CRM utilisant des modèles plus récents ; teste si l'écart de capacité de WorkArena++ s'est réduit.
