GPT-4 atteint une AUROC moyenne de 74,1 sur le benchmark ODDS sans réglage fin — égalant presque la référence classique ECOD à 75,5 — mais échoue sur les anomalies multidimensionnelles et les ensembles de données à forte variance ; un examen critique de la détection d'anomalies zero-shot par LLM et ses implications pour l'audit automatisé des registres Beancount.
DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.
TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.
τ²-bench étend l'évaluation des agents aux environnements à double contrôle où l'IA et l'utilisateur invoquent tous deux des outils sur un état partagé — révélant que les utilisateurs actifs réduisent les taux de réussite de 18 à 25 points de pourcentage, avec des implications directes pour les agents Beancount partageant l'accès en écriture avec des utilisateurs humains.
WorkArena++ (NeurIPS 2024) évalue 682 tâches d'entreprise compositionnelles sur trois niveaux de difficulté. GPT-4o en résout 2,1 % tandis que les humains en résolvent 93,9 %, isolant précisément pourquoi les agents IA actuels échouent dans le travail de la connaissance à buts implicites et pourquoi cet écart est crucial pour l'automatisation comptable autonome.
GAIA évalue 466 tâches du monde réel sur trois niveaux de difficulté ; les agents de pointe ont atteint 74,55 % à la mi-2026 contre 92 % pour les humains, et l'écart restant au niveau 3 correspond directement aux défis de coordination multi-étapes dans les flux de travail automatisés du grand livre Beancount.
OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.
GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.
WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.