57 berichten getagd met "Automation"

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Kunnen LLM-agents CFO's zijn? EnterpriseArena's 132-maanden simulatie onthult een grote kloof

EnterpriseArena onderwerpt 11 LLM's aan een 132-maanden durende CFO-simulatie waarbij overleving, eindwaardering en boekafsluitingspercentages worden bijgehouden. Alleen Qwen3.5-9B overleeft 80% van de runs; GPT-5.4 en DeepSeek-V3.1 halen 0%. Menselijke experts bereiken 100% overleving met een 5x hogere eindwaarde. Het kritieke knelpunt: LLM's slaan in 80% van de gevallen de grootboekreconciliatie over en handelen op basis van verouderde financiële statussen.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk

WildToolBench (ICLR 2026) evalueert 57 LLM's op 1.024 taken gebaseerd op echt gebruikersgedrag — geen enkel model overschrijdt 15% sessienauwkeurigheid, waarbij compositionele orkestratie, verborgen intentie en instructie-overgangen de drie meest kritieke faalmodi zijn.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Complexiteit van real-world schema's doorbreekt garanties voor gestructureerde LLM-output

JSONSchemaBench test 9.558 real-world JSON-schema's tegen zes beperkte decoderingsframeworks en ontdekt dat schemacomplexiteit ervoor zorgt dat de dekking instort van 86% bij eenvoudige schema's naar 3% bij complexe, waarbij XGrammar stilletjes 38 niet-conforme outputs genereert en geen enkel framework alle 45 JSON-schema functiecategorieën dekt.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking van LLM-agenten voor financieel toolgebruik in de praktijk onder MCP

FinMCP-Bench evalueert zes LLM-modellen op 613 praktijkgerichte financiële taken voor het gebruik van tools, ondersteund door 65 MCP-servers — het beste model scoort 3,08% exacte overeenkomst bij multi-turn taken, wat een prestatie-instorting van 20× laat zien van enkelvoudige naar multi-turn scenario's.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken

FinTrace benchmarkt 13 LLM's op 800 door experts geannoteerde trajecten voor financiële taken via 9 statistieken. De resultaten tonen aan dat frontier-modellen sterke tool-selectie behalen (F1 ~0,9), maar slechts 3,23/5 scoren op informatiebenutting — de stap waarin agents redeneren over de resultaten van tools.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

OmniEval (EMNLP 2025) benchmarkt RAG-systemen over 5 taaktypen × 16 financiële onderwerpen met behulp van 11,4k automatisch gegenereerde testcases. De beste systemen behalen slechts 36% numerieke nauwkeurigheid — concreet bewijs dat RAG-pipelines validatielagen nodig hebben voordat ze naar gestructureerde financiële grootboeken schrijven.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context

Een trainingsvrije kalibratie tijdens de inferentie-tijd trekt de positionele bias af van de LLM-aandachtsgewichten, waardoor tot 15 procentpunten aan RAG-nauwkeurigheid wordt hersteld wanneer opgehaalde documenten midden in de context verborgen zijn — en wat dit betekent voor financieel-specifieke agent-pipelines.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

Alles Over Automation

Kunnen LLM-agents CFO's zijn? EnterpriseArena's 132-maanden simulatie onthult een grote kloof

WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk

JSONSchemaBench: Complexiteit van real-world schema's doorbreekt garanties voor gestructureerde LLM-output

FinMCP-Bench: Benchmarking van LLM-agenten voor financieel toolgebruik in de praktijk onder MCP

FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch