Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.
GuardAgent (ICML 2025) place un agent LLM distinct entre un agent cible et son environnement, vérifiant chaque action proposée en générant et en exécutant du code Python — atteignant une précision d'application des politiques de 98,7 % tout en préservant 100 % de l'achèvement des tâches, contre 81 % de précision et 29 à 71 % d'échec des tâches pour les règles de sécurité intégrées au prompt.
Une analyse approfondie de l'article de Du et al. (ICML 2024) sur le débat multi-agents — qui fait état de gains de précision de 14,8 points en arithmétique — accompagnée de réfutations de 2025 montrant que des agents uniques à budget équivalent égalent les performances de débat, et une analyse de la raison pour laquelle le Délire Collectif (65 % des échecs de débat) présente des risques spécifiques pour les validations de grands livres assistées par IA.
CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.