Prejsť na hlavný obsah
Transaction Validation

Všetko o Transaction Validation

4 články
Validating and verifying financial transactions using language model agents

LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy

Benchmark LLMFinLiteracy zisťuje, že päť modelov s otvorenými váhami o veľkosti približne 7B generuje plne správne transakcie Beancount len v 2,3 % prípadov, pričom zlyhania sa sústreďujú v účtovnom uvažovaní — nie v syntaxi — čo poukazuje na spätnú väzbu kompilátora v slučke ako na kritický chýbajúci prvok pre spoľahlivých agentov na zápis.

GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu

GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.

Debata viacerých agentov LLM: Skutočné zisky presnosti, nekontrolovaný výpočtový výkon a kolektívny klam

Podrobné čítanie článku Du et al. z ICML 2024 o debate viacerých agentov – ktorý uvádza 14,8-bodový nárast presnosti v aritmetike – spolu s vyvráteniami z roku 2025 ukazujúcimi, že jednotliví agenti s rovnakým rozpočtom vyrovnajú výkon debaty, a analýza toho, prečo kolektívny klam (65 % zlyhaní debaty) predstavuje špecifické riziká pre zápisy do účtovnej knihy s asistenciou AI.

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.