Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: De kosten meten van dual-control in conversationele AI-agents

τ²-bench breidt agent-benchmarking uit naar dual-control omgevingen waar zowel de AI als de gebruiker tools aanroepen over een gedeelde status — waarbij wordt vastgesteld dat actieve gebruikers de slagingspercentages met 18–25 procentpunten verlagen, met directe gevolgen voor Beancount-agents die schrijftoegang delen met menselijke gebruikers.

llm

automation

June 17, 2026·mike

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

WorkArena++ (NeurIPS 2024) benchmarkt 682 compositionele bedrijfstaken verdeeld over drie moeilijkheidsgraden. GPT-4o lost 2,1% hiervan op, terwijl mensen 93,9% oplossen. Dit laat precies zien waarom de huidige AI-agenten falen bij kenniswerk met impliciete doelen en waarom die kloof cruciaal is voor autonome boekhoudautomatisering.

llm

automation

June 16, 2026·mike

GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen

GAIA benchmarkt 466 praktijktaken op drie moeilijkheidsniveaus; grensverleggende agenten bereikten medio 2026 74,55%, vergeleken met 92% voor mensen. De resterende kloof op Niveau 3 komt direct overeen met de coördinatie-uitdagingen bij geautomatiseerde Beancount-ledgerworkflows.

llm

machine-learning

June 15, 2026·mike

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

OSWorld (NeurIPS 2024) benchmarkt multimodale AI-agents op 369 echte desktoptaken in Ubuntu, Windows en macOS — met een kloof van 60 procentpunten tussen het beste model (12,24%) en menselijke prestaties (72,36%), waarbij 75% van de fouten wordt herleid naar visuomotorische verankeringsfouten in plaats van redeneerfouten.

machine-learning

automation

June 14, 2026·mike

WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen

GPT-4 voltooit slechts 14,41% van de 812 realistische webtaken van WebArena, terwijl mensen 78,24% halen; de dominante foutmodus is foutieve onuitvoerbaarheid — een conservatieve weigering om te handelen — met directe gevolgen voor elke agent die Fava of financiële web-UI's bedient.

llm

automation

June 13, 2026·mike

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

WorkArena benchmarkt LLM-webagents op 33 echte ServiceNow-taken — GPT-4o bereikt in totaal 42,7%, maar 0% op lijstfiltertaken, wat een harde muur blootlegt tussen het invullen van formulieren en gestructureerde UI-interactie die direct verband houdt met uitdagingen in Beancount-grootboekautomatisering.

llm

automation

June 12, 2026·mike

τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen

τ-bench laat zien dat top-LLM's zoals Claude 3.5 Sonnet zakken van een pass@1 van 0,692 naar een pass@4 van 0,462 in retail-klantenservicetaken — een consistentie-vallei met directe gevolgen voor elke write-back agent die op een Beancount-grootboek werkt.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.

llm

machine-learning

June 10, 2026·mike

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.

llm

machine-learning

June 9, 2026·mike

TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount

TAPAS (Google Research, ACL 2020) beantwoordt tabelvragen door cellen te selecteren en scalaire aggregaties toe te passen — zonder SQL te genereren. Dit bericht analyseert de architectuur, de nauwkeurigheidswinst van 12 punten op SQA, en waarom het cel-selectieparadigma geschikt is voor kleine Beancount-ledgerqueries maar tekortschiet op schaal.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL

MAC-SQL (COLING 2025) gebruikt drie gespecialiseerde agents — Selector voor schemareductie, Decomposer voor vraag-decompositie en Refiner voor uitvoeringsgestuurde SQL-correctie — om een uitvoeringsnauwkeurigheid van 59,59% te behalen op de BIRD-benchmark; ablatie toont aan dat de Refiner het meest bijdraagt (+4,63 punten), met directe gevolgen voor de generatie van zoekopdrachten voor Beancount-grootboeken.

machine-learning

database

June 7, 2026·mike

DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL

DIN-SQL (NeurIPS 2023) decomposeert text-to-SQL in fasen voor schema-linking, complexiteitsclassificatie en SQL-generatie, waardoor GPT-4 stijgt van 67,4% naar 85,3% uitvoeringsnauwkeurigheid op Spider zonder fine-tuning — en dezelfde decompositiestrategie is direct toepasbaar op natuurlijke taalinterfaces voor de BQL-querytaal van Beancount.

llm

database

25–36 van 87 berichten tonen

Vorige3 / 8Volgende