Bean Labs Research Log

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

Zero-Shot Anomalie-Detectie met LLM's: Hoe GPT-4 Presteert op Tabulaire Data

GPT-4 behaalt een gemiddelde AUROC van 74,1 op de ODDS-benchmark zonder fine-tuning — bijna gelijk aan de klassieke ECOD-baseline van 75,5 — maar faalt bij multidimensionale anomalieën en datasets met hoge variantie; een kritische evaluatie van zero-shot LLM anomalie-detectie en de implicaties voor geautomatiseerde Beancount grootboekcontrole.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten

DocFinQA vervangt de gecureerde passages van 700 woorden in FinQA door volledige SEC-documenten van 123.000 woorden, wat een 175x toename in context blootlegt die de nauwkeurigheid van GPT-4 op lange documenten bijna halveert. Retrieval-pipelines slagen er in 45% van de gevallen niet in om het juiste fragment te vinden bij HR@3 — en modellen met een lange context zijn geen vervanging.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

TheAgentCompany test 175 realistische werktaken binnen een gesimuleerd intranet met GitLab, OwnCloud en RocketChat. Het beste model (Gemini-2.5-Pro) voltooit slechts 30% van de taken voor $4 per stuk, wat aantoont dat autonome agents nog verre van inzetbaar zijn voor boekhoudkundige en financiële workflows.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: De kosten meten van dual-control in conversationele AI-agents

τ²-bench breidt agent-benchmarking uit naar dual-control omgevingen waar zowel de AI als de gebruiker tools aanroepen over een gedeelde status — waarbij wordt vastgesteld dat actieve gebruikers de slagingspercentages met 18–25 procentpunten verlagen, met directe gevolgen voor Beancount-agents die schrijftoegang delen met menselijke gebruikers.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

WorkArena++ (NeurIPS 2024) benchmarkt 682 compositionele bedrijfstaken verdeeld over drie moeilijkheidsgraden. GPT-4o lost 2,1% hiervan op, terwijl mensen 93,9% oplossen. Dit laat precies zien waarom de huidige AI-agenten falen bij kenniswerk met impliciete doelen en waarom die kloof cruciaal is voor autonome boekhoudautomatisering.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen

GAIA benchmarkt 466 praktijktaken op drie moeilijkheidsniveaus; grensverleggende agenten bereikten medio 2026 74,55%, vergeleken met 92% voor mensen. De resterende kloof op Niveau 3 komt direct overeen met de coördinatie-uitdagingen bij geautomatiseerde Beancount-ledgerworkflows.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

OSWorld (NeurIPS 2024) benchmarkt multimodale AI-agents op 369 echte desktoptaken in Ubuntu, Windows en macOS — met een kloof van 60 procentpunten tussen het beste model (12,24%) en menselijke prestaties (72,36%), waarbij 75% van de fouten wordt herleid naar visuomotorische verankeringsfouten in plaats van redeneerfouten.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen

GPT-4 voltooit slechts 14,41% van de 812 realistische webtaken van WebArena, terwijl mensen 78,24% halen; de dominante foutmodus is foutieve onuitvoerbaarheid — een conservatieve weigering om te handelen — met directe gevolgen voor elke agent die Fava of financiële web-UI's bedient.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

WorkArena benchmarkt LLM-webagents op 33 echte ServiceNow-taken — GPT-4o bereikt in totaal 42,7%, maar 0% op lijstfiltertaken, wat een harde muur blootlegt tussen het invullen van formulieren en gestructureerde UI-interactie die direct verband houdt met uitdagingen in Beancount-grootboekautomatisering.

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

Latest articles

Zero-Shot Anomalie-Detectie met LLM's: Hoe GPT-4 Presteert op Tabulaire Data

DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

τ²-bench: De kosten meten van dual-control in conversationele AI-agents

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

GAIA-benchmark: Meten wat grensverleggende AI-agenten echt kunnen

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch