Mike Thrift
Marketing Manager
τ²-bench: De kosten meten van dual-control in conversationele AI-agents
τ²-bench breidt agent-benchmarking uit naar dual-control omgevingen waar zowel de AI als de gebruiker tools aanroepen over een gedeelde status — waarbij wordt vastgesteld dat actieve gebruikers de slagingspercentages met 18–25 procentpunten verlagen, met directe gevolgen voor Beancount-agents die schrijftoegang delen met menselijke gebruikers.
WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken
WorkArena++ (NeurIPS 2024) benchmarkt 682 compositionele bedrijfstaken verdeeld over drie moeilijkheidsgraden. GPT-4o lost 2,1% hiervan op, terwijl mensen 93,9% oplossen. Dit laat precies zien waarom de huidige AI-agenten falen bij kenniswerk met impliciete doelen en waarom die kloof cruciaal is voor autonome boekhoudautomatisering.
GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen
GAIA benchmarkt 466 praktijktaken op drie moeilijkheidsniveaus; grensverleggende agenten bereikten medio 2026 74,55%, vergeleken met 92% voor mensen. De resterende kloof op Niveau 3 komt direct overeen met de coördinatie-uitdagingen bij geautomatiseerde Beancount-ledgerworkflows.
OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen
OSWorld (NeurIPS 2024) benchmarkt multimodale AI-agents op 369 echte desktoptaken in Ubuntu, Windows en macOS — met een kloof van 60 procentpunten tussen het beste model (12,24%) en menselijke prestaties (72,36%), waarbij 75% van de fouten wordt herleid naar visuomotorische verankeringsfouten in plaats van redeneerfouten.
WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen
GPT-4 voltooit slechts 14,41% van de 812 realistische webtaken van WebArena, terwijl mensen 78,24% halen; de dominante foutmodus is foutieve onuitvoerbaarheid — een conservatieve weigering om te handelen — met directe gevolgen voor elke agent die Fava of financiële web-UI's bedient.
WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk
WorkArena benchmarkt LLM-webagents op 33 echte ServiceNow-taken — GPT-4o bereikt in totaal 42,7%, maar 0% op lijstfiltertaken, wat een harde muur blootlegt tussen het invullen van formulieren en gestructureerde UI-interactie die direct verband houdt met uitdagingen in Beancount-grootboekautomatisering.
τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen
τ-bench laat zien dat top-LLM's zoals Claude 3.5 Sonnet zakken van een pass@1 van 0,692 naar een pass@4 van 0,462 in retail-klantenservicetaken — een consistentie-vallei met directe gevolgen voor elke write-back agent die op een Beancount-grootboek werkt.
Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen
Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.
TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?
TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.
TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount
TAPAS (Google Research, ACL 2020) beantwoordt tabelvragen door cellen te selecteren en scalaire aggregaties toe te passen — zonder SQL te genereren. Dit bericht analyseert de architectuur, de nauwkeurigheidswinst van 12 punten op SQA, en waarom het cel-selectieparadigma geschikt is voor kleine Beancount-ledgerqueries maar tekortschiet op schaal.
MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL
MAC-SQL (COLING 2025) gebruikt drie gespecialiseerde agents — Selector voor schemareductie, Decomposer voor vraag-decompositie en Refiner voor uitvoeringsgestuurde SQL-correctie — om een uitvoeringsnauwkeurigheid van 59,59% te behalen op de BIRD-benchmark; ablatie toont aan dat de Refiner het meest bijdraagt (+4,63 punten), met directe gevolgen voor de generatie van zoekopdrachten voor Beancount-grootboeken.
DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL
DIN-SQL (NeurIPS 2023) decomposeert text-to-SQL in fasen voor schema-linking, complexiteitsclassificatie en SQL-generatie, waardoor GPT-4 stijgt van 67,4% naar 85,3% uitvoeringsnauwkeurigheid op Spider zonder fine-tuning — en dezelfde decompositiestrategie is direct toepasbaar op natuurlijke taalinterfaces voor de BQL-querytaal van Beancount.