Преминете към основното съдържание
Transaction Validation

Всичко за Transaction Validation

4 статии
Validating and verifying financial transactions using language model agents

LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy

Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.

GuardAgent: Детерминистично прилагане на безопасността за LLM агенти чрез изпълнение на код

GuardAgent (ICML 2025) поставя отделен LLM агент между целевия агент и неговата среда, като верифицира всяко предложено действие чрез генериране и изпълнение на Python код — постигайки 98,7% точност при прилагане на политиките, като същевременно запазва 100% изпълнение на задачите, в сравнение с 81% точност и 29–71% неуспех на задачите при вградени в инструкциите (prompt) правила за безопасност.

Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда

Подробен анализ на статията за дебат между мултиагентни системи на Du et al. от ICML 2024 — отчитаща 14,8 пункта ръст в точността при аритметика — заедно с опровержения от 2025 г., показващи, че единични агенти със същия бюджет достигат сходна производителност, и анализ защо колективната заблуда (65% от неуспехите при дебати) крие специфични рискове за автоматизирани записи в счетоводни книги.

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.