Mike Thrift
Marketing Manager
OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering
OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.
Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten
Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.
FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG
FinDER benchmarkt RAG op 5.703 echte vragen van hedgefondsanalisten tegenover S&P 500 10-K-deponeringen; E5-Mistral behaalt slechts 25,95% context recall, en vragen met veel afkortingen kosten 8,2 precisiepunten — het bewijs dat query-normalisatie, en niet betere embeddings, de eerste oplossing is voor financiële AI-pijplijnen.
Lost in the Middle: Positiebias in LLM's en de impact op Finance AI
Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.
AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie
AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.
CausalTAD: Causale Kolomvolgorde voor LLM Tabulaire Anomaliedetectie
CausalTAD verbetert LLM-gebaseerde tabulaire anomaliedetectie door tabelkolommen te herordenen op basis van causale afhankelijkheden vóór serialisatie, wat de gemiddelde AUC-ROC verhoogt van 0,803 naar 0,834 ten opzichte van AnoLLM op benchmarks met gemengde typen — met directe gevolgen voor het detecteren van anomalieën in gestructureerde grootboekgegevens.
AnoLLM: LLM's finetunen voor tabelgebaseerde anomaliedetectie in financiële gegevens
AnoLLM (ICLR 2025) herformuleert tabelgebaseerde anomaliedetectie als LLM-dichtheidsschatting — finetuning op normale rijen en scoren via negatieve log-likelihood. Het presteert beter dan klassieke methoden op fraudedatasets van gemengde types, maar biedt geen voordeel bij puur numerieke gegevens, met reële gevolgen voor het detecteren van anomalieën in Beancount-grootboekvermeldingen.
LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark
De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.
TableMaster: Adaptief redeneren voor tabelbegrip met LLM's
TableMaster is een prompting-only pipeline die 78,13% behaalt op WikiTQ met GPT-4o-mini—13 punten hoger dan Chain-of-Table—door de extractie van een 'tabel-van-focus', semantische verbalisering en adaptief schakelen tussen tekstueel en symbolisch redeneren te combineren. Dit is wat de architectuur betekent voor AI-agents voor financiële grootboeken zoals Beancount.
Zero-Shot Anomalie-Detectie met LLM's: Hoe GPT-4 Presteert op Tabulaire Data
GPT-4 behaalt een gemiddelde AUROC van 74,1 op de ODDS-benchmark zonder fine-tuning — bijna gelijk aan de klassieke ECOD-baseline van 75,5 — maar faalt bij multidimensionale anomalieën en datasets met hoge variantie; een kritische evaluatie van zero-shot LLM anomalie-detectie en de implicaties voor geautomatiseerde Beancount grootboekcontrole.
DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten
DocFinQA vervangt de gecureerde passages van 700 woorden in FinQA door volledige SEC-documenten van 123.000 woorden, wat een 175x toename in context blootlegt die de nauwkeurigheid van GPT-4 op lange documenten bijna halveert. Retrieval-pipelines slagen er in 45% van de gevallen niet in om het juiste fragment te vinden bij HR@3 — en modellen met een lange context zijn geen vervanging.
TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken
TheAgentCompany test 175 realistische werktaken binnen een gesimuleerd intranet met GitLab, OwnCloud en RocketChat. Het beste model (Gemini-2.5-Pro) voltooit slechts 30% van de taken voor $4 per stuk, wat aantoont dat autonome agents nog verre van inzetbaar zijn voor boekhoudkundige en financiële workflows.