Mike Thrift
Marketing Manager
τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels
τ²-bench étend l'évaluation des agents aux environnements à double contrôle où l'IA et l'utilisateur invoquent tous deux des outils sur un état partagé — révélant que les utilisateurs actifs réduisent les taux de réussite de 18 à 25 points de pourcentage, avec des implications directes pour les agents Beancount partageant l'accès en écriture avec des utilisateurs humains.
WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles
WorkArena++ (NeurIPS 2024) évalue 682 tâches d'entreprise compositionnelles sur trois niveaux de difficulté. GPT-4o en résout 2,1 % tandis que les humains en résolvent 93,9 %, isolant précisément pourquoi les agents IA actuels échouent dans le travail de la connaissance à buts implicites et pourquoi cet écart est crucial pour l'automatisation comptable autonome.
Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire
GAIA évalue 466 tâches du monde réel sur trois niveaux de difficulté ; les agents de pointe ont atteint 74,55 % à la mi-2026 contre 92 % pour les humains, et l'écart restant au niveau 3 correspond directement aux défis de coordination multi-étapes dans les flux de travail automatisés du grand livre Beancount.
OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %
OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.
WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire
GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.
WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise
WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.
τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils
τ-bench montre que les meilleurs LLM comme Claude 3.5 Sonnet chutent d'un pass@1 de 0,692 à un pass@4 de 0,462 dans les tâches de service client de détail — une chute de cohérence brutale avec des implications directes pour tout agent d'écriture opérant sur un grand livre Beancount.
Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM
Chain-of-Table (ICLR 2024) améliore le raisonnement tabulaire des LLM en faisant évoluer le tableau lui-même en tant qu'état intermédiaire — atteignant 67,31 % sur WikiTQ contre 61,48 % pour les références précédentes, avec un avantage de +10,25 points sur les tableaux dépassant 4 000 jetons et une applicabilité directe aux agents de requête de grand livre Beancount.
TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?
TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.
TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount
TAPAS (Google Research, ACL 2020) répond aux questions sur les tableaux en sélectionnant des cellules et en appliquant des agrégations scalaires — sans génération de SQL. Cet article analyse l'architecture, son gain de précision SQA de 12 points, et pourquoi le paradigme de sélection de cellules convient aux requêtes de petits registres Beancount mais échoue à grande échelle.
MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL
MAC-SQL (COLING 2025) utilise trois agents spécialisés — Selector pour la réduction de schéma, Decomposer pour la décomposition des questions et Refiner pour la correction SQL guidée par l'exécution — pour atteindre une précision d'exécution de 59,59 % sur le benchmark BIRD ; l'ablation montre que le Refiner contribue le plus (+4,63 points), avec des implications directes pour la génération de requêtes de grand livre Beancount.
DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL
DIN-SQL (NeurIPS 2023) décompose le text-to-SQL en étapes de liaison de schéma, de classification de la complexité et de génération SQL, faisant passer l'exactitude d'exécution de GPT-4 de 67,4 % à 85,3 % sur Spider sans fine-tuning — et cette même stratégie de décomposition s'applique directement aux interfaces en langage naturel pour le langage de requête BQL de Beancount.