Aller au contenu principal

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

TheAgentCompany est le benchmark d'agents d'entreprise le plus réaliste que j'ai lu jusqu'à présent dans cette série. Il provient du groupe de Graham Neubig à CMU et a été soumis à NeurIPS 2024, motivé par un constat clair : les benchmarks existants testent la navigation web isolée ou la résolution de problèmes GitHub, mais les tâches professionnelles réelles exigent que les agents parcourent des plateformes internes, envoient des messages aux collègues, écrivent du code et exécutent des programmes au sein d'une seule et même tâche. Je le lis maintenant car c'est l'expérience contrôlée la plus proche dont nous disposons pour savoir si les agents LLM peuvent réellement fonctionner comme des collègues numériques dans un cadre concret.

L'article

2026-06-19-theagentcompany-benchmarking-llm-agents-real-world-tasks

Xu et al. construisent une entreprise simulée autonome : un espace de travail local doublé d'un intranet faisant tourner de réelles instances de GitLab, OwnCloud, Plane (gestion de projet) et RocketChat (messagerie d'équipe). L'environnement inclut également des collègues simulés — des PNJ propulsés par des LLM — afin que les agents puissent envoyer des messages et recevoir des conseils en cours de tâche. Les tâches couvrent sept catégories de rôles : ingénierie logicielle (SDE), gestion de projet, RH, science des données, finance, administration, et une catégorie "autre". Le total s'élève à 175 tâches, préparées par 20 étudiants en informatique et ingénieurs logiciels sur environ 3 000 heures-personnes réparties sur deux mois.

L'évaluation utilise un système de points de contrôle : chaque tâche comporte des jalons intermédiaires valant une fraction du score total, plus un bonus pour l'achèvement complet. Les évaluateurs sont soit déterministes (vérification du contenu des fichiers, des sorties de code, de l'état de l'environnement), soit basés sur des LLM (évaluation de texte libre). Tous les modèles fonctionnent sous le framework d'agent OpenHands, qui fournit l'exécution de code, la navigation web et l'accès au terminal à partir d'un harnais configurable unique.

Idées clés

  • Gemini-2.5-Pro est en tête avec 30,3 % de complétion totale et un score partiel de 39,3 % ; Claude-3.7-Sonnet suit avec 26,3 % / 36,4 % ; GPT-4o n'atteint que 8,6 % / 16,7 % ; Llama-3.1-405B culmine à 7,4 %.
  • Le meilleur modèle effectue en moyenne environ 27 étapes d'agent et coûte plus de 4 $ par tâche — même pour des tâches que les auteurs décrivent comme plus simples que la complexité réelle du lieu de travail.
  • Les tâches financières figurent parmi les catégories les plus difficiles, aux côtés de l'administration et de la science des données ; les tâches SDE sont systématiquement les plus faciles malgré l'exigence de connaissances techniques plus spécialisées.
  • Trois modes d'échec dominent : la navigation dans des interfaces web complexes (notamment la suite bureautique d'OwnCloud), l'incapacité à utiliser de manière productive les messages des collègues ("manque de compétences sociales"), et l'abandon des tâches administratives multi-documents qui nécessitent des recoupements fastidieux.
  • Les auteurs attribuent l'avantage de la SDE directement au biais des données d'entraînement : le pré-entraînement des LLM est fortement orienté vers le code et les données GitHub en raison des benchmarks importants et du signal d'entraînement public abondant, de sorte que les modèles généralisent bien mieux aux tâches logicielles qu'aux flux de travail RH ou financiers.

Ce qui tient la route — et ce qui ne tient pas

La conception de l'environnement est véritablement impressionnante. Faire tourner de vrais GitLab, OwnCloud et RocketChat plutôt que des simulations simplifiées signifie que les agents sont confrontés à une complexité d'interface authentique : vrais popups, flux d'authentification et cas limites. Le score partiel basé sur des points de contrôle est également la bonne décision : un succès binaire (réussite/échec) rendrait la plupart des tâches uniformément désespérées, masquant les progrès réels des agents.

Cela dit, plusieurs faiblesses méritent d'être signalées. Plus important encore, il n'y a pas de référence de performance humaine. Les auteurs le reconnaissent — les contraintes de ressources ont empêché la collecte de temps ou de taux de réussite humains — ce qui signifie que nous n'avons pas de dénominateur. Un taux de complétion de 30 % pour les agents semble médiocre, mais sans savoir si un humain passerait 20 minutes ou 3 heures sur la même tâche, ou si certaines tâches sont réellement ambiguës, ce chiffre est difficile à contextualiser.

La catégorie finance ne comporte que 12 tâches. C'est trop peu pour tirer des conclusions robustes sur les échecs spécifiques à la finance. Les agents sont-ils moins bons en finance à cause d'une propriété du raisonnement financier, ou parce que les tâches financières impliquent par hasard plus de navigation documentaire dans OwnCloud ? L'article ne peut pas trancher à cette échelle, et les auteurs n'essaient pas de le faire.

Les auteurs admettent également que les tâches "sont généralement du côté le plus simple en raison de la nécessité d'évaluer automatiquement avec des programmes et des cas de test". Les tâches de comptabilité ou de finance réelles les plus difficiles — préparer un rapprochement de fin d'exercice à partir de données sources incohérentes, signaler des problèmes de conformité réglementaire, produire un rapport de gestion sur plusieurs périodes de grand livre — sont pratiquement impossibles à évaluer automatiquement. Le benchmark sous-échantillonne probablement précisément les tâches qui importeraient le plus pour des agents financiers autonomes.

Pourquoi cela compte pour l'IA financière

Les résultats ici sont décevants d'une manière utile. Un taux de complétion de 30 % sur des tâches qualifiées de simplifiées par les auteurs signifie que les agents autonomes sont loin d'être opérationnels pour les flux de travail comptables réels. La catégorie finance est spécifiquement faible, et les principaux modes d'échec — interfaces complexes, récupération multi-documents, rupture de communication avec les homologues humains — sont précisément les compétences dont un agent d'automatisation Beancount aurait besoin : extraire des données du stockage de documents, recouper les transactions entre les rapports et poser des questions de clarification avant de valider les écritures.

Le coût de 4 $ par tâche pour le meilleur modèle agit comme un rappel à la réalité. À ce tarif, faire tourner un agent sur une clôture mensuelle de routine impliquant des dizaines de sous-tâches coûterait des centaines de dollars sans aucune garantie de fiabilité. Le comportement de Gemini-2.0-Flash consistant à limiter les pertes rapidement — atteignant un score partiel de 19,0 % pour moins de 1 $ par tâche — suggère qu'il y a une réelle valeur technique à savoir quand s'arrêter et solliciter une intervention plutôt que de brûler des jetons sur une trajectoire vouée à l'échec.

Les PNJ simulant des collègues sont un mécanisme de conception intéressant qui correspond directement à la contrainte réelle de Beancount : des agents qui ignorent les retours de l'utilisateur et procèdent avec des hypothèses erronées sont plus dangereux que des agents qui s'arrêtent et posent des questions. Le constat du benchmark selon lequel les modèles actuels échouent à extraire des informations utiles des messages des collègues devrait être une donnée d'entrée directe pour tout agent avec capacité d'écriture interagissant avec un comptable humain en milieu de session.

Ce qu'il faut lire ensuite

  • OpenHands : Une plateforme ouverte pour les développeurs de logiciels IA en tant qu'agents généralistes — le framework d'agent sous-jacent à TheAgentCompany ; arXiv:2407.16741, ICLR 2025. Comprendre l'architecture CodeAct + navigation d'OpenHands permet de clarifier quelles capacités d'agent sont basiques par rapport à ce que TheAgentCompany teste réellement.
  • DocFinQA : Un ensemble de données de raisonnement financier à contexte long — étend 7 437 questions FinQA à des documents SEC complets d'une moyenne de 123 000 mots ; arXiv:2401.06915, ACL 2024. Teste directement le raisonnement financier sur documents longs que les 12 tâches financières de TheAgentCompany ne peuvent pas échantillonner adéquatement.
  • Évaluation et benchmarking des agents LLM : Un état de l'art — arXiv:2507.21504. Une étude de 2025 sur le paysage de l'évaluation des agents qui replace TheAgentCompany dans son contexte aux côtés de WebArena, OSWorld et SWE-bench, et retrace comment les choix de conception des benchmarks façonnent nos conclusions sur les capacités des agents.