4 поста с тегом "Transaction Validation"

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

GuardAgent (ICML 2025) размещает отдельного LLM-агента между целевым агентом и его средой, проверяя каждое предложенное действие путем генерации и выполнения кода на Python — достигая точности соблюдения политик в 98,7% при сохранении 100% завершаемости задач, по сравнению с 81% точности и 29–71% отказов при использовании правил безопасности, встроенных в промпт.

AILLMMachine LearningAutomationBeancountTransaction Validation

Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение

Подробный разбор статьи Ду и др. на ICML 2024 о мультиагентных дебатах, в которой сообщается о росте точности в арифметике на 14,8 пункта, наряду с опровержениями 2025 года, показывающими сопоставимые результаты одиночных агентов при равном бюджете, а также анализ того, почему коллективное заблуждение (65% неудач дебатов) создает специфические риски для коммитов в книгу учета с помощью ИИ.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.

Все о Transaction Validation

LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация