ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.
OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.
De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.
TableMaster is een prompting-only pipeline die 78,13% behaalt op WikiTQ met GPT-4o-mini—13 punten hoger dan Chain-of-Table—door de extractie van een 'tabel-van-focus', semantische verbalisering en adaptief schakelen tussen tekstueel en symbolisch redeneren te combineren. Dit is wat de architectuur betekent voor AI-agents voor financiële grootboeken zoals Beancount.
τ²-bench breidt agent-benchmarking uit naar dual-control omgevingen waar zowel de AI als de gebruiker tools aanroepen over een gedeelde status — waarbij wordt vastgesteld dat actieve gebruikers de slagingspercentages met 18–25 procentpunten verlagen, met directe gevolgen voor Beancount-agents die schrijftoegang delen met menselijke gebruikers.
GAIA benchmarkt 466 praktijktaken op drie moeilijkheidsniveaus; grensverleggende agenten bereikten medio 2026 74,55%, vergeleken met 92% voor mensen. De resterende kloof op Niveau 3 komt direct overeen met de coördinatie-uitdagingen bij geautomatiseerde Beancount-ledgerworkflows.
WorkArena benchmarkt LLM-webagents op 33 echte ServiceNow-taken — GPT-4o bereikt in totaal 42,7%, maar 0% op lijstfiltertaken, wat een harde muur blootlegt tussen het invullen van formulieren en gestructureerde UI-interactie die direct verband houdt met uitdagingen in Beancount-grootboekautomatisering.
τ-bench laat zien dat top-LLM's zoals Claude 3.5 Sonnet zakken van een pass@1 van 0,692 naar een pass@4 van 0,462 in retail-klantenservicetaken — een consistentie-vallei met directe gevolgen voor elke write-back agent die op een Beancount-grootboek werkt.
Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.
TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.