WildToolBench (ICLR 2026) évalue 57 LLM sur 1 024 tâches issues de comportements d'utilisateurs réels — aucun modèle ne dépasse 15 % de précision par session, l'orchestration compositionnelle, l'intention cachée et les transitions d'instructions étant les trois modes d'échec les plus marqués.
L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.
OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.
StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.
Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.
Self-RAG (ICLR 2024 Oral) entraîne un modèle de langage à décider quand récupérer des informations puis à évaluer ses propres résultats à l'aide de quatre jetons de réflexion — atteignant 55,8 % sur PopQA et un FactScore de 80,2 sur les biographies tout en surpassant ChatGPT sur cinq références. L'analyse couvre le mécanisme, les résultats d'ablation, les limites de reproductibilité et les implications pour les agents d'IA financière sur les grands livres Beancount.
AgentBench (Liu et al., ICLR 2024) évalue 27 LLM à travers 8 environnements interactifs — GPT-4 a obtenu un score global de 4,01 contre 0,96 pour le meilleur modèle open-source. Les trois principaux modes d'échec (limite de tâches dépassée à 67,9 % des échecs de graphes de connaissances, erreurs de format à 53,3 % des échecs de bases de données et actions invalides) correspondent directement aux risques liés au déploiement d'un agent de réécriture Beancount sur un grand livre réel.
MemGPT applique la pagination de mémoire virtuelle de type OS aux LLM, utilisant un stockage à trois niveaux — mémoire de travail, rappel et archivage — pour donner aux agents un rappel persistant d'une session à l'autre ; sur les benchmarks de chat multi-sessions, MemGPT avec GPT-4 atteint une précision de 92,5 % contre 32,1 % pour une base de référence à contexte fixe.