Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten

PHANTOM (NeurIPS 2025) is de eerste benchmark die LLM-hallucinatie-detectie meet op echte SEC-filings over contextlengtes tot 30.000 tokens. Qwen3-30B-A3B-Thinking loopt voorop met F1=0,882; 7B-modellen scoren bijna op het niveau van willekeurig gokken — met directe gevolgen voor autonome boekhoudagenten.

llm

machine-learning

April 18, 2026·mike

FinMaster Benchmark: Waarom LLM's 96% scoren op financiële geletterdheid maar 3% op het genereren van overzichten

FinMaster (arXiv:2505.13533) benchmarkt o3-mini, Claude 3.7 Sonnet en DeepSeek-V3 over 183 financiële taken—waaruit blijkt dat modellen 96% scoren op financiële geletterdheid maar instorten tot 3% op het genereren van overzichten, waarbij multi-stap adviestaken 21 nauwkeurigheidspunten verliezen door foutvoortplanting.

llm

accounting

April 17, 2026·mike

ReAct: Synergie tussen redeneren en handelen in taalmodellen

ReAct (Yao et al., ICLR 2023) vervlecht chain-of-thought-redeneren met tool-acties in een enkel traject, waarmee het puur CoT op het gebied van feitverificatie en imitatie-leren op belichaamde taken met 34 procentpunten overtreft. Deze analyse behandelt de foutmodi van het artikel — door zoeken veroorzaakte afleiding en opeenstapelende fouten — en wat deze betekenen voor autonome agents die terugschrijven naar Beancount-grootboeken.

llm

machine-learning

85–87 van 87 berichten tonen

Vorige8 / 8