Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

open-source

automation

June 29, 2026·mike

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.

llm

machine-learning

June 28, 2026·mike

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

FinDER benchmarkt RAG op 5.703 echte vragen van hedgefondsanalisten tegenover S&P 500 10-K-deponeringen; E5-Mistral behaalt slechts 25,95% context recall, en vragen met veel afkortingen kosten 8,2 precisiepunten — het bewijs dat query-normalisatie, en niet betere embeddings, de eerste oplossing is voor financiële AI-pijplijnen.

llm

machine-learning

June 27, 2026·mike

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

llm

machine-learning

June 26, 2026·mike

AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie

AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Causale Kolomvolgorde voor LLM Tabulaire Anomaliedetectie

CausalTAD verbetert LLM-gebaseerde tabulaire anomaliedetectie door tabelkolommen te herordenen op basis van causale afhankelijkheden vóór serialisatie, wat de gemiddelde AUC-ROC verhoogt van 0,803 naar 0,834 ten opzichte van AnoLLM op benchmarks met gemengde typen — met directe gevolgen voor het detecteren van anomalieën in gestructureerde grootboekgegevens.

llm

machine-learning

June 24, 2026·mike

AnoLLM: LLM's finetunen voor tabelgebaseerde anomaliedetectie in financiële gegevens

AnoLLM (ICLR 2025) herformuleert tabelgebaseerde anomaliedetectie als LLM-dichtheidsschatting — finetuning op normale rijen en scoren via negatieve log-likelihood. Het presteert beter dan klassieke methoden op fraudedatasets van gemengde types, maar biedt geen voordeel bij puur numerieke gegevens, met reële gevolgen voor het detecteren van anomalieën in Beancount-grootboekvermeldingen.

llm

machine-learning

June 23, 2026·mike

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

TableMaster is een prompting-only pipeline die 78,13% behaalt op WikiTQ met GPT-4o-mini—13 punten hoger dan Chain-of-Table—door de extractie van een 'tabel-van-focus', semantische verbalisering en adaptief schakelen tussen tekstueel en symbolisch redeneren te combineren. Dit is wat de architectuur betekent voor AI-agents voor financiële grootboeken zoals Beancount.

llm

machine-learning

June 21, 2026·mike

Zero-Shot Anomalie-Detectie met LLM's: Hoe GPT-4 Presteert op Tabulaire Data

GPT-4 behaalt een gemiddelde AUROC van 74,1 op de ODDS-benchmark zonder fine-tuning — bijna gelijk aan de klassieke ECOD-baseline van 75,5 — maar faalt bij multidimensionale anomalieën en datasets met hoge variantie; een kritische evaluatie van zero-shot LLM anomalie-detectie en de implicaties voor geautomatiseerde Beancount grootboekcontrole.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten

DocFinQA vervangt de gecureerde passages van 700 woorden in FinQA door volledige SEC-documenten van 123.000 woorden, wat een 175x toename in context blootlegt die de nauwkeurigheid van GPT-4 op lange documenten bijna halveert. Retrieval-pipelines slagen er in 45% van de gevallen niet in om het juiste fragment te vinden bij HR@3 — en modellen met een lange context zijn geen vervanging.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

TheAgentCompany test 175 realistische werktaken binnen een gesimuleerd intranet met GitLab, OwnCloud en RocketChat. Het beste model (Gemini-2.5-Pro) voltooit slechts 30% van de taken voor $4 per stuk, wat aantoont dat autonome agents nog verre van inzetbaar zijn voor boekhoudkundige en financiële workflows.

llm

automation

13–24 van 87 berichten tonen

Vorige2 / 8Volgende