33 berichten getagd met "Plain-Text Accounting"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

TableMaster is een prompting-only pipeline die 78,13% behaalt op WikiTQ met GPT-4o-mini—13 punten hoger dan Chain-of-Table—door de extractie van een 'tabel-van-focus', semantische verbalisering en adaptief schakelen tussen tekstueel en symbolisch redeneren te combineren. Dit is wat de architectuur betekent voor AI-agents voor financiële grootboeken zoals Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: De kosten meten van dual-control in conversationele AI-agents

τ²-bench breidt agent-benchmarking uit naar dual-control omgevingen waar zowel de AI als de gebruiker tools aanroepen over een gedeelde status — waarbij wordt vastgesteld dat actieve gebruikers de slagingspercentages met 18–25 procentpunten verlagen, met directe gevolgen voor Beancount-agents die schrijftoegang delen met menselijke gebruikers.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen

GAIA benchmarkt 466 praktijktaken op drie moeilijkheidsniveaus; grensverleggende agenten bereikten medio 2026 74,55%, vergeleken met 92% voor mensen. De resterende kloof op Niveau 3 komt direct overeen met de coördinatie-uitdagingen bij geautomatiseerde Beancount-ledgerworkflows.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

WorkArena benchmarkt LLM-webagents op 33 echte ServiceNow-taken — GPT-4o bereikt in totaal 42,7%, maar 0% op lijstfiltertaken, wat een harde muur blootlegt tussen het invullen van formulieren en gestructureerde UI-interactie die direct verband houdt met uitdagingen in Beancount-grootboekautomatisering.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen

τ-bench laat zien dat top-LLM's zoals Claude 3.5 Sonnet zakken van een pass@1 van 0,692 naar een pass@4 van 0,462 in retail-klantenservicetaken — een consistentie-vallei met directe gevolgen voor elke write-back agent die op een Beancount-grootboek werkt.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.

Alles Over Plain-Text Accounting

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

τ²-bench: De kosten meten van dual-control in conversationele AI-agents

GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch