El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.
GuardAgent (ICML 2025) situa un agent LLM independent entre un agent objectiu i el seu entorn, verificant cada acció proposada mitjançant la generació i execució de codi Python — aconseguint una precisió del 98,7% en l'aplicació de polítiques mentre preserva el 100% de la finalització de tasques, enfront del 81% de precisió i el 29–71% de fracàs en les tasques per a regles de seguretat integrades en el prompt.
Una lectura detinguda de l'article de Du et al. per a l'ICML 2024 sobre el debat multiagent —que informa de guanys de precisió de 14,8 punts en aritmètica— juntament amb les refutacions de 2025 que mostren que agents únics amb el mateix pressupost igualen el rendiment del debat, i una anàlisi de per què el deliri col·lectiu (65% dels errors de debat) planteja riscos específics per a les entrades de llibre major assistides per IA.
CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.