4 berichten getagd met "Transaction Validation"

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.

AILLMMachine LearningAutomationBeancountTransaction Validation

Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden

Een diepgaande analyse van het ICML 2024 multi-agent debat-artikel van Du et al. — dat een winst van 14,8 punten in nauwkeurigheid bij rekenen rapporteert — samen met weerleggingen uit 2025 die aantonen dat enkelvoudige agents met een gelijk budget de prestaties van het debat evenaren, en een analyse van waarom collectieve waanbeelden (65% van de debatmislukkingen) specifieke risico's vormen voor AI-ondersteunde grootboek-commits.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist

CRITIC (ICLR 2024) behaalt een F1-winst van 7,7 op open-domein QA en een toxiciteitsreductie van 79,2% door LLM-revisie te baseren op signalen van externe tools — een 'verifieer-dan-corrigeer'-lus die direct aansluit op de veiligheid van terugschrijven voor financiële Beancount-agents.

Alles Over Transaction Validation

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden

CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch