Benchmark LLMFinLiteracy zisťuje, že päť modelov s otvorenými váhami o veľkosti približne 7B generuje plne správne transakcie Beancount len v 2,3 % prípadov, pričom zlyhania sa sústreďujú v účtovnom uvažovaní — nie v syntaxi — čo poukazuje na spätnú väzbu kompilátora v slučke ako na kritický chýbajúci prvok pre spoľahlivých agentov na zápis.
GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.
Podrobné čítanie článku Du et al. z ICML 2024 o debate viacerých agentov – ktorý uvádza 14,8-bodový nárast presnosti v aritmetike – spolu s vyvráteniami z roku 2025 ukazujúcimi, že jednotliví agenti s rovnakým rozpočtom vyrovnajú výkon debaty, a analýza toho, prečo kolektívny klam (65 % zlyhaní debaty) predstavuje špecifické riziká pre zápisy do účtovnej knihy s asistenciou AI.
CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.