Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten
PHANTOM (NeurIPS 2025) is de eerste benchmark die LLM-hallucinatie-detectie meet op echte SEC-filings over contextlengtes tot 30.000 tokens. Qwen3-30B-A3B-Thinking loopt voorop met F1=0,882; 7B-modellen scoren bijna op het niveau van willekeurig gokken — met directe gevolgen voor autonome boekhoudagenten.
FinMaster Benchmark: Waarom LLM's 96% scoren op financiële geletterdheid maar 3% op het genereren van overzichten
FinMaster (arXiv:2505.13533) benchmarkt o3-mini, Claude 3.7 Sonnet en DeepSeek-V3 over 183 financiële taken—waaruit blijkt dat modellen 96% scoren op financiële geletterdheid maar instorten tot 3% op het genereren van overzichten, waarbij multi-stap adviestaken 21 nauwkeurigheidspunten verliezen door foutvoortplanting.
ReAct: Synergie tussen redeneren en handelen in taalmodellen
ReAct (Yao et al., ICLR 2023) vervlecht chain-of-thought-redeneren met tool-acties in een enkel traject, waarmee het puur CoT op het gebied van feitverificatie en imitatie-leren op belichaamde taken met 34 procentpunten overtreft. Deze analyse behandelt de foutmodi van het artikel — door zoeken veroorzaakte afleiding en opeenstapelende fouten — en wat deze betekenen voor autonome agents die terugschrijven naar Beancount-grootboeken.