Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire
Après avoir lu WebArena et OSWorld — deux benchmarks où les agents peinent énormément avec les interactions web et de bureau au niveau des pixels — j'ai voulu prendre du recul et examiner un benchmark complémentaire qui évite délibérément ce cadre. GAIA (Mialon et al., ICLR 2024) évalue les assistants IA polyvalents sur des questions qui sont « conceptuellement simples pour les humains mais difficiles pour les IA les plus avancées », ce qui en fait une mesure plus directe des capacités d'agent autonome dont un assistant Beancount aurait réellement besoin.
L'article
GAIA pose une question pertinente : si nous supprimons le cadre des examens professionnels spécialisés qui définit la plupart des benchmarks de LLM (examens du barreau, conseils de l'ordre des médecins, mathématiques de niveau master), comment les modèles de pointe s'en sortent-ils réellement sur les tâches quotidiennes de recherche et de raisonnement qu'un assistant humain gérerait ? Mialon, Fourrier, Swift, Wolf, LeCun et Scialom ont rassemblé 466 questions du monde réel qui nécessitent une navigation web, l'exécution de code, une compréhension multimodale et un raisonnement multi-étapes — mais pour lesquelles la réponse de référence est sans ambiguïté et assez concise pour être vérifiée automatiquement.
Le benchmark est divisé en trois niveaux. Le niveau 1 (environ 146 questions) attend des solutions en moins de cinq étapes avec une utilisation minimale d'outils. Le niveau 2 (environ 245 questions) nécessite l'orchestration correcte de plusieurs outils sur cinq à dix étapes. Le niveau 3 (environ 75 questions) exige une planification à long horizon et une intégration sophistiquée des outils. Ce n'est pas une taxonomie arbitraire : elle suit directement la surcharge de coordination que les agents autonomes doivent supporter.
Idées clés
- Les humains obtiennent un score global de 92 %. GPT-4 avec plugins n'a obtenu que 15 % au moment de la publication — un écart de 77 points sur des tâches qu'une personne compétente résout en quelques minutes.
- Le benchmark résiste à la « manipulation » (gaming) contrairement aux benchmarks d'examens : les réponses nécessitent de trouver des faits non indexés, d'effectuer des calculs ou de synthétiser plusieurs modalités, de sorte que le rappel à partir du pré-entraînement seul fonctionne rarement.
- Trois niveaux exposent les points de rupture réels des pipelines d'agents : le niveau 1 récompense une bonne extraction ; le niveau 2 punit le cumul d'erreurs lors des appels d'outils ; le niveau 3 exige un suivi soutenu de l'objectif sur de nombreuses étapes, ce qu'aucun système ne pouvait faire de manière fiable lors de la publication.
- Les questions sont sans ambiguïté par conception — chacune a une seule réponse courte correcte — ce qui rend l'évaluation automatique fiable mais restreint également le type de tâche à la « recherche et dérivation » plutôt qu'au raisonnement ouvert.
- À la mi-2026, le meilleur agent rapporté publiquement sur le classement HAL (Claude Sonnet 4.5) atteint 74,55 % au total : 82 % au niveau 1, 73 % au niveau 2 et 65 % au niveau 3. La performance humaine se situe toujours autour de 92 %, le niveau 3 conservant donc un écart significatif.
- L'ensemble de validation est désormais largement disponible et a presque certainement fuité dans les données d'entraînement, rendant les scores de l'ensemble de validation des nouveaux modèles pratiquement ininterprétables. L'ensemble de test réservé reste plus propre mais est inaccessible pour l'auto-évaluation.
Ce qui tient la route — et ce qui ne la tient pas
L'idée centrale — que les LLM de pointe sont loin de la robustesse humaine sur des tâches d'assistance pratiques — était véritablement importante fin 2023 et a déclenché une vague productive de recherche sur les agents. La structure à trois niveaux est bien calibrée : le niveau 1 et le niveau 3 occupent des strates de capacités significativement différentes et le benchmark ne s'effondre pas à une extrémité.
Là où l'article montre son âge, c'est dans la configuration de l'évaluation. La référence « GPT-4 avec plugins » était déjà obsolète lors de l'ICLR 2024 ; les agents modernes utilisant Claude 3.7 Sonnet ou Claude Sonnet 4.5 comblent une grande partie de l'écart sur les niveaux 1 et 2. Plus grave encore, environ 5 % des questions comportent des erreurs ou des ambiguïtés dans la réponse de référence, et les auteurs le reconnaissent mais ne publient pas d'ensemble de données corrigé. C'est un problème de fiabilité non négligeable pour un benchmark de 466 questions.
La limitation plus profonde réside dans le format de réponse. GAIA fonctionne parce que chaque réponse est une courte chaîne de caractères vérifiable. Cette contrainte limite les tâches à « chercher quelque chose et le calculer ou le transformer » plutôt qu'à « rédiger un plan, l'exécuter et produire un artefact structuré ». Les cas d'utilisation réels de Beancount — rapprocher un mois de transactions, rédiger une écriture de journal pour une transaction à plusieurs étapes, générer un rapport de fin d'année — ne correspondent pas à ce moule. GAIA mesure une facette de ce dont un assistant général a besoin ; il ne mesure pas l'exécution d'un flux de travail de bout en bout.
La situation de la contamination est désormais sérieuse. Tout agent qui affiche la précision de l'ensemble de validation comme son chiffre principal sans précautions explicites doit être considéré avec suspicion. La position dans le classement des nouveaux modèles reflète presque certainement, en partie, un chevauchement avec les données d'entraînement.
Pourquoi c'est important pour l'IA financière
La trajectoire de 15 % → 74 % en deux ans et demi est encourageante, mais l'écart restant au niveau 3 est précisément là où se situe l'automatisation de Beancount. Les tâches de niveau 3 nécessitent de suivre un état intermédiaire sur de nombreuses étapes sans perdre l'objectif de vue — exactement ce qu'un agent d'écriture dans le grand livre doit faire lorsqu'il récupère les soldes de comptes, applique une règle de rapprochement, vérifie le résultat par rapport à une contrainte, puis valide ou annule l'opération. Si les agents de pointe échouent encore à 35 % des questions GAIA de niveau 3, qui sont conceptuellement simples pour les humains, c'est un avertissement direct sur la fiabilité des opérations multi-étapes sur le grand livre.
Le principe de conception de GAIA — sans ambiguïté, vérifiable, traitable par l'humain — est également un modèle utile pour évaluer les agents Beancount. J'ai réfléchi à ce à quoi ressemblerait un ensemble « FinGAIA » : des questions telles que « étant donné ce fichier de grand livre, quel compte est à découvert à la fin du mois ? » ou « quel est l'équivalent en USD du solde en EUR au 31/12/2024 ? » qui sont sans ambiguïté, nécessitent l'utilisation d'outils et se dégradent gracieusement sur trois niveaux de complexité. La méthodologie de GAIA se transpose directement ; il suffit de remplacer le domaine.
Une chose que GAIA n'aborde pas — et que Bean Labs devra finir par résoudre — est l'écriture sécurisée (safe write-back). Toutes les tâches de GAIA consistent à lire et répondre. Un agent Beancount autonome qui modifie l'état du grand livre a besoin d'un protocole d'évaluation distinct pour la correction, l'atomicité et la réversibilité. GAIA montre que les agents peuvent obtenir la bonne réponse ; il ne dit rien sur leur capacité à la valider en toute sécurité.
Que lire ensuite
- TheAgentCompany (arXiv:2412.14161) — 175 tâches au sein d'une entreprise de logiciels simulée avec de vrais outils internes ; le meilleur agent termine 24 % des tâches de manière autonome ; l'analogue le plus direct pour évaluer un agent Beancount intégré dans un flux de travail comptable réel.
- AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — évalue les agents web sur des tâches réalistes et chronophages soumises par de vrais utilisateurs ; complète GAIA en testant l'extraction ouverte plutôt que des réponses vérifiables fixes.
- WorkArena++ (arXiv:2407.05291) — étend WorkArena à 682 tâches d'entreprise compositionnelles et multi-étapes ; les plus difficiles (niveau 3) restent non résolues par les modèles actuels, ce qui en fait la prochaine frontière de difficulté après GAIA niveau 3.
