Doorgaan naar hoofdinhoud
Plain-Text Accounting

Alles Over Plain-Text Accounting

33 artikelen
Research grounded in plain-text accounting formats and workflows

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

TableMaster is een prompting-only pipeline die 78,13% behaalt op WikiTQ met GPT-4o-mini—13 punten hoger dan Chain-of-Table—door de extractie van een 'tabel-van-focus', semantische verbalisering en adaptief schakelen tussen tekstueel en symbolisch redeneren te combineren. Dit is wat de architectuur betekent voor AI-agents voor financiële grootboeken zoals Beancount.

τ²-bench: De kosten meten van dual-control in conversationele AI-agents

τ²-bench breidt agent-benchmarking uit naar dual-control omgevingen waar zowel de AI als de gebruiker tools aanroepen over een gedeelde status — waarbij wordt vastgesteld dat actieve gebruikers de slagingspercentages met 18–25 procentpunten verlagen, met directe gevolgen voor Beancount-agents die schrijftoegang delen met menselijke gebruikers.

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.