Mike Thrift
Marketing Manager
FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein
FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark voor multimodale RAG met visuele citaten in de financiële sector, met meer dan 112.000 documentpagina's en 1.394 door mensen geannoteerde QA-paren. Topmodellen behalen slechts 20–61% recall op blokniveau voor citaten, en multimodale retrieval presteert bijna 50 procentpunten beter dan alleen tekst.
Kunnen LLM-agents CFO's zijn? EnterpriseArena's 132-maanden simulatie onthult een grote kloof
EnterpriseArena onderwerpt 11 LLM's aan een 132-maanden durende CFO-simulatie waarbij overleving, eindwaardering en boekafsluitingspercentages worden bijgehouden. Alleen Qwen3.5-9B overleeft 80% van de runs; GPT-5.4 en DeepSeek-V3.1 halen 0%. Menselijke experts bereiken 100% overleving met een 5x hogere eindwaarde. Het kritieke knelpunt: LLM's slaan in 80% van de gevallen de grootboekreconciliatie over en handelen op basis van verouderde financiële statussen.
WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk
WildToolBench (ICLR 2026) evalueert 57 LLM's op 1.024 taken gebaseerd op echt gebruikersgedrag — geen enkel model overschrijdt 15% sessienauwkeurigheid, waarbij compositionele orkestratie, verborgen intentie en instructie-overgangen de drie meest kritieke faalmodi zijn.
LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont
Een systematisch overzicht van LLM-betrouwbaarheidsschatting en kalibratiemethoden — white-box logit-benaderingen, op consistentie gebaseerde SelfCheckGPT en semantische entropie — onthult dat geverbaliseerde betrouwbaarheidsscores van GPT-4 slechts ~62,7% AUROC behalen, nauwelijks boven kansniveau, met directe gevolgen voor de inzet van onzekerheidsbewuste agents in financiën en boekhouding.
JSONSchemaBench: Complexiteit van real-world schema's doorbreekt garanties voor gestructureerde LLM-output
JSONSchemaBench test 9.558 real-world JSON-schema's tegen zes beperkte decoderingsframeworks en ontdekt dat schemacomplexiteit ervoor zorgt dat de dekking instort van 86% bij eenvoudige schema's naar 3% bij complexe, waarbij XGrammar stilletjes 38 niet-conforme outputs genereert en geen enkel framework alle 45 JSON-schema functiecategorieën dekt.
FinMCP-Bench: Benchmarking van LLM-agenten voor financieel toolgebruik in de praktijk onder MCP
FinMCP-Bench evalueert zes LLM-modellen op 613 praktijkgerichte financiële taken voor het gebruik van tools, ondersteund door 65 MCP-servers — het beste model scoort 3,08% exacte overeenkomst bij multi-turn taken, wat een prestatie-instorting van 20× laat zien van enkelvoudige naar multi-turn scenario's.
FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken
FinTrace benchmarkt 13 LLM's op 800 door experts geannoteerde trajecten voor financiële taken via 9 statistieken. De resultaten tonen aan dat frontier-modellen sterke tool-selectie behalen (F1 ~0,9), maar slechts 3,23/5 scoren op informatiebenutting — de stap waarin agents redeneren over de resultaten van tools.
FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk
FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.
OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector
OmniEval (EMNLP 2025) benchmarkt RAG-systemen over 5 taaktypen × 16 financiële onderwerpen met behulp van 11,4k automatisch gegenereerde testcases. De beste systemen behalen slechts 36% numerieke nauwkeurigheid — concreet bewijs dat RAG-pipelines validatielagen nodig hebben voordat ze naar gestructureerde financiële grootboeken schrijven.
LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking
Een kritische lezing van het NAACL 2025-overzicht van Xu en Ding over LLM-gebaseerde anomalie- en OOD-detectie: de detectie-vs-generatie taxonomie houdt stand, maar de bijna volledige afwezigheid van tabelvormige dekking betekent dat financiële AI-beoefenaars zelf inzichten uit visiemodellen moeten synthetiseren.
Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context
Een trainingsvrije kalibratie tijdens de inferentie-tijd trekt de positionele bias af van de LLM-aandachtsgewichten, waardoor tot 15 procentpunten aan RAG-nauwkeurigheid wordt hersteld wanneer opgehaalde documenten midden in de context verborgen zijn — en wat dit betekent voor financieel-specifieke agent-pipelines.
Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen
ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.