4 записи з тегом "Transaction Validation"

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.

AILLMMachine LearningAutomationBeancountTransaction Validation

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

Детальний аналіз статті Ду та ін. про дебати між мультиагентними системами на ICML 2024, де повідомляється про приріст точності в арифметиці на 14,8 пункту, разом із спростуваннями 2025 року, які показують, що поодинокі агенти з однаковим бюджетом обчислень не поступаються дебатам, а також аналіз того, чому «колективна ілюзія» (65% невдач у дебатах) створює особливі ризики для фіксації записів у бухгалтерській книзі за допомогою ШІ.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів

CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.

Все про Transaction Validation

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація