Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.
GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.
Детальний аналіз статті Ду та ін. про дебати між мультиагентними сист емами на ICML 2024, де повідомляється про приріст точності в арифметиці на 14,8 пункту, разом із спростуваннями 2025 року, які показують, що поодинокі агенти з однаковим бюджетом обчислень не поступаються дебатам, а також аналіз того, чому «колективна ілюзія» (65% невдач у дебатах) створює особливі ризики для фіксації записів у бухгалтерській книзі за допомогою ШІ.
CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.