Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.
GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.
Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.
CRITIC (ICLR 2024) erzielt 7,7 F1-Gewinne bei Open-Domain QA und eine Toxizitätsreduzierung von 79,2 %, indem die LLM-Revision in externen Werkzeugsignalen verankert wird – eine Verify-then-Correct-Schleife, die direkt auf die Rückschreibsicherheit für Beancount-Finanzagenten übertragbar ist.