AgentBench : Évaluer les LLM en tant qu'agents — Leçons pour la fiabilité de l'IA en finance
Quand je me demande ce qu'un agent de réécriture Beancount doit réellement faire de manière fiable, la réponse n'est pas « générer du texte », mais plutôt « effectuer une séquence d'actions dans un environnement structuré sans dérailler ». AgentBench (Liu et al., Tsinghua, ICLR 2024) est l'une des premières tentatives sérieuses de mesurer cette capacité à grande échelle, et les chiffres de l'instantané de 2023 contiennent encore des leçons qui valent la peine d'être extraites.
L'article
AgentBench, par Xiao Liu et 21 co-auteurs de l'Université Tsinghua, définit huit environnements conçus pour tester la résistance des LLM en tant qu'agents interactifs plutôt qu'en tant que générateurs de texte passifs. Cinq environnements sont originaux : OS (interaction bash), Base de données (génération SQL et récupération d'erreurs), Graphe de connaissances (requêtes structurées basées sur des outils), Jeu de cartes numérique (compétition stratégique à plusieurs tours) et Puzzles de pensée latérale (dialogue déductif). Trois sont adaptés de jeux de données antérieurs : Tenue de maison d'ALFWorld, Shopping en ligne de WebShop et Navigation Web de Mind2Web. L'article évalue 27 modèles — des modèles API commerciaux et des modèles open-source jusqu'à 70B — sur environ 4 000 générations de l'ensemble de développement et 13 000 de l'ensemble de test, et rapporte à la fois les taux de réussite par environnement et un score global composite.
Idées clés
- GPT-4 mène avec un score global de 4,01. Claude-2 obtient 2,49, GPT-3.5-turbo 2,32. CodeLlama-34B, le modèle open-source le plus performant au moment de la soumission, n'obtient que 0,96. Les modèles basés sur API affichent une moyenne globale de 2,24 contre 0,42 pour l'open-source.
- GPT-4 obtient 42,4 % sur OS, 32,0 % sur Base de données et 78,0 % sur Tenue de maison — l'écart révèle quels environnements récompensent le suivi d'instructions par rapport au raisonnement structuré.
- « Limite de tâches dépassée » est le mode d'échec dominant : 67,9 % des échecs de Graphe de connaissances atteignent le budget d'étapes avant de résoudre la tâche. Il s'agit d'un échec de raisonnement à long terme, et non d'un manque de connaissances.
- Les erreurs de conformité de format représentent 53,3 % des échecs de tâches de Base de données — l'agent produit du SQL syntaxiquement incorrect ou enveloppe les requêtes dans une prose que l'évaluateur ne peut pas analyser.
- La sélection d'actions invalides cause 64,1 % des échecs de Tenue de maison — l'agent nomme une action non disponible dans l'état actuel.
- L'entraînement sur du code a des « impacts ambivalents selon les tâches » : il aide dans les environnements de suivi de procédure mais peut nuire au raisonnement général dans ceux qui reposent sur le dialogue.
Ce qui tient la route — et ce qui ne tient pas
Le choix de conception central — une évaluation multi-environnement, multi-tour et interactive — est correct et reste sous-utilisé. La plupart des benchmarks de LLM mesurent encore la qualité de la génération en un seul tour ; AgentBench insiste à juste titre sur le fait que les agents doivent continuer à prendre des décisions jusqu'à ce qu'une tâche soit terminée ou que le budget soit épuisé.
Cela dit, l'instantané est daté d'une manière qui compte. L'écart entre GPT-4 (4,01) et le meilleur modèle open-source (0,96) semblait alarmant à la mi-2023, mais il s'est largement réduit en 2025. Des modèles comme Llama 3.1 70B ou Qwen 2.5 72B franchissent désormais des barres de suivi d'instructions et de conformité de format qui étaient des obstacles inédits il y a deux ans. Lire l'article comme une preuve que « l'open-source ne peut pas effectuer de tâches d'agent » serait une erreur ; le lire comme une preuve que « la conformité du format et la cohérence à long terme sont les problèmes difficiles » reste d'actualité.
Il existe également une tension entre largeur et profondeur. Huit environnements semblent exhaustifs, mais chacun est relativement superficiel. WebArena (Zhou et al., 2024) couvre à lui seul la navigation Web avec 812 tâches modélisées à long terme ; OSWorld (Xie et al., 2024) évalue 369 tâches de bureau réelles sur Ubuntu et Windows. AgentBench peut vous donner un signal multi-environnement mais ne remplacera pas un benchmark spécifique à un domaine une fois que vous aurez identifié l'environnement qui vous intéresse.
La taxonomie des modes d'échec du tableau 4 est probablement la contribution la plus durable. Les auteurs décomposent les échecs en : Limite de tâches dépassée, Erreur de format, Action invalide, et quelques autres. Ce ne sont pas des bugs d'implémentation — ce sont des faiblesses structurelles dans la manière dont les LLM maintiennent l'état, suivent les actions disponibles et produisent une sortie analysable sous une pression de plusieurs tours. Tout système d'agent sérieux doit les traiter.
Pourquoi cela compte pour l'IA en finance
Les trois modes d'échec dominants correspondent presque directement à ce qui, selon moi, pourrait casser un agent de réécriture Beancount.
Limite de tâches dépassée est le mode d'échec du rapprochement de grand livre. Le rapprochement d'une clôture de période multi-comptes nécessite de vérifier les soldes d'ouverture, de faire correspondre les débits et les crédits, d'identifier les écarts et de proposer des corrections — une chaîne qui peut facilement atteindre 10 à 20 étapes. Un agent qui atteint son budget de contexte ou d'étapes en milieu de chaîne et abandonne ne se contente pas d'échouer proprement ; il peut laisser le grand livre dans un état partiellement modifié.
Erreur de format est le mode d'échec de la saisie de transactions. Beancount a une syntaxe stricte : une imputation mal formée (devise manquante, mauvaise indentation, indicateur invalide) est une erreur d'analyse qui corrompt le fichier. Un agent qui génère de la prose autour de sa sortie Beancount, ou qui produit une syntaxe d'apparence correcte dans le mauvais format, est inutile. C'est le problème central de l'article CRITIC appliqué à un domaine plus strict.
Action invalide est le problème de sécurité de la réécriture. Un agent Beancount opérant sur un grand livre réel dispose d'un ensemble limité d'opérations sûres : ajouter une transaction, corriger un indicateur, déplacer une imputation. Halluciner une action en dehors de cet ensemble — par exemple, supprimer un compte qui a encore des positions ouvertes — est un échec d'exactitude qui peut ne pas être détectable avant un audit.
Le constat selon lequel « l'entraînement au code a des impacts ambivalents » est également pertinent. La réécriture Beancount est plus proche de la génération de code que de la récupération de connaissances, donc un modèle pré-entraîné sur du code devrait être un choix naturel. Mais si l'entraînement au code dégrade le suivi de dialogue dans des contextes multi-tours, une évaluation hybride (comme celle d'AgentBench) est nécessaire pour faire émerger ces compromis avant le déploiement.
Lectures complémentaires
- WebArena (Zhou et al., 2024 ; arXiv:2307.13854) — 812 tâches de navigation Web dans un environnement de navigateur en direct ; la suite axée sur la profondeur du volet Web d'AgentBench.
- OSWorld (Xie et al., 2024 ; NeurIPS 2024) — benchmark complet d'environnement de bureau incluant le système de fichiers et les tâches GUI ; l'environnement OS d'OSWorld est un successeur direct et plus profond du volet OS d'AgentBench.
- TAU-bench (Yao et al., 2024) — évalue les agents dans des environnements d'API de vente au détail et de compagnies aériennes avec une utilisation réelle d'outils et une simulation d'utilisateur ; le benchmark publié le plus proche d'un paramétrage « grand livre Beancount en tant qu'environnement ».
