Перейти к контенту
Transaction Validation

Все о Transaction Validation

4 статей
Validating and verifying financial transactions using language model agents

LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

GuardAgent (ICML 2025) размещает отдельного LLM-агента между целевым агентом и его средой, проверяя каждое предложенное действие путем генерации и выполнения кода на Python — достигая точности соблюдения политик в 98,7% при сохранении 100% завершаемости задач, по сравнению с 81% точности и 29–71% отказов при использовании правил безопасности, встроенных в промпт.

Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение

Подробный разбор статьи Ду и др. на ICML 2024 о мультиагентных дебатах, в которой сообщается о росте точности в арифметике на 14,8 пункта, наряду с опровержениями 2025 года, показывающими сопоставимые результаты одиночных агентов при равном бюджете, а также анализ того, почему коллективное заблуждение (65% неудач дебатов) создает специфические риски для коммитов в книгу учета с помощью ИИ.

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.