OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.
ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.
Une comparaison empirique entre le RAG et l'ajustement fin non supervisé sur des LLM de 7 milliards de paramètres montre que le RAG atteint une précision de plus de 0,875 sur les faits postérieurs à la date de coupure, alors que l'ajustement fin plafonne à 0,504 — avec des implications directes pour la conception d'agents Beancount et tout système nécessitant des mises à jour fréquentes des connaissances.
Gorilla (Patil et al., NeurIPS 2024) affine un modèle LLaMA 7B avec le Retriever-Aware Training sur la documentation d'API récupérée, réduisant les taux d'hallucination de 78 % à 11 % par rapport à GPT-4 en zero-shot — avec des implications directes pour les agents d'écriture IA en finance où les noms de comptes erronés ou les signes inversés sont des échecs d'exactitude, et non de simples désagréments.
SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.
SWE-bench évalue les modèles de langage sur 2 294 problèmes GitHub réels répartis dans 12 dépôts Python à l'aide de tests basés sur l'exécution ; lors de la publication, Claude 2 n'a résolu que 1,96 % des problèmes avec une recherche réaliste, établissant la référence de facto pour les agents de codage et révélant des modes d'échec de recherche et de longueur de correctif directement pertinents pour les agents d'écriture Beancount.
Une lecture attentive de Toolformer (Meta AI, NeurIPS 2023) : comment l'entraînement auto-supervisé filtré par la perplexité apprend à un modèle de 6,7 milliards de paramètres à appeler des API externes, où il surpasse GPT-3 175B sur les tests d'arithmétique, et pourquoi son architecture à étape unique ne peut pas prendre en charge les appels d'outils en chaîne requis pour les opérations de comptabilité structurée.