Перейти до основного вмісту
Transaction Validation

Все про Transaction Validation

4 статті
Validating and verifying financial transactions using language model agents

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

Детальний аналіз статті Ду та ін. про дебати між мультиагентними системами на ICML 2024, де повідомляється про приріст точності в арифметиці на 14,8 пункту, разом із спростуваннями 2025 року, які показують, що поодинокі агенти з однаковим бюджетом обчислень не поступаються дебатам, а також аналіз того, чому «колективна ілюзія» (65% невдач у дебатах) створює особливі ризики для фіксації записів у бухгалтерській книзі за допомогою ШІ.

CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів

CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.