Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.
GuardAgent (ICML 2025) поставя отделен LLM агент между целевия агент и неговата среда, като верифицира всяко предложено действие чрез генериране и изпълнение на Python код — постигайки 98,7% точност при прилагане на политиките, като същевременно запазва 100% изпълнение на задачите, в сравнение с 81% точност и 29–71% неуспех на задачите при вградени в инструкциите (prompt) правила за безопасност.
Подробен анализ на статията за дебат между мултиагентни системи на Du et al. от ICML 2024 — отчитаща 14,8 пункта ръст в точността при аритметика — заедно с опровержения от 2025 г., показващи, че единични агенти със същия бюджет достигат сходна производителност, и анализ защо колективната заблуда (65% от неуспехите при дебати) крие специфични рискове за автоматизирани записи в счетоводни книги.
CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.