Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: De benchmark voor het meten van numeriek redeneren door AI in financiële rapporten

FinQA (EMNLP 2021) bouwde 8.281 QA-paren op basis van S&P 500-kwartaalcijfers die meerstaps rekenprogramma's vereisen. Neurale modellen scoorden bij de release 61% tegenover 91% voor menselijke experts; de nauwkeurigheid keldert naar 22% bij programma's met drie of meer stappen. De foutmodi — domeinconstanten, cross-modaliteit grounding, ketenlengte — sluiten direct aan bij de uitdagingen waar Beancount-agents tegenwoordig voor staan.

machine-learning

llm

May 12, 2026·mike

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.

llm

machine-learning

May 11, 2026·mike

DSPy: Broze Prompt Engineering Vervangen door Gecompileerde LLM-Pipelines

DSPy vervangt handmatige prompt-strings door declaratieve signaturen en een metriek-gestuurde compiler—waardoor Llama2-13b stijgt van 9,4% naar 46,9% op GSM8K wiskundig redeneren en een meer onderhoudbaar pad biedt voor AI-pipelines in de financiële sector.

llm

machine-learning

May 10, 2026·mike

LATS: Language Agent Tree Search — Redeneren, Handelen en Plannen in Eén Framework

LATS (Language Agent Tree Search, ICML 2024) verenigt ReAct, Tree of Thoughts en Reflexion in één MCTS-framework, en behaalt een pass@1 van 92,7% op HumanEval met GPT-4. Voor Beancount-grootboeken met Git-beheer wordt de vereiste voor status-reversie, die LATS in productieomgevingen beperkt, triviaal vervuld.

llm

machine-learning

May 9, 2026·mike

Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's

Self-RAG (ICLR 2024 Oral) traint een taalmodel om te beslissen wanneer informatie moet worden opgehaald en vervolgens de eigen resultaten te beoordelen met behulp van vier reflectie-tokens — met resultaten van 55,8% op PopQA en een FactScore van 80,2 op biografieën, waarmee het ChatGPT op vijf benchmarks overtreft. De analyse behandelt het mechanisme, de ablatieresultaten, beperkingen in reproduceerbaarheid en implicaties voor financiële AI-agents op basis van Beancount-grootboeken.

machine-learning

llm

May 8, 2026·mike

Voyager: Vaardigheidsbibliotheken als de basis voor levenslang leren van AI-agents

Voyager, een door GPT-4 aangedreven Minecraft-agent van NVIDIA en Caltech, laat zien dat een persistente code-vaardigheidsbibliotheek echt levenslang leren mogelijk maakt zonder fine-tuning — met de ontdekking van 3,3x meer items dan eerdere state-of-the-art modellen. Dit patroon is direct toepasbaar op lange-termijn automatisering van Beancount-grootboeken, hoewel financiële correctheid staging-lagen vereist die in game-sandboxes nooit nodig zijn.

llm

machine-learning

May 7, 2026·mike

HippoRAG: Neurobiologisch geïnspireerd langetermijngeheugen voor LLM's

HippoRAG (NeurIPS 2024) bouwt een kennisgraaf van OpenIE-triples en past Personalized PageRank toe op het moment van de query. Het bereikt een Recall@5 van 89,1% op 2WikiMultiHopQA vergeleken met 68,2% voor ColBERTv2—met directe implicaties voor het bevragen van complexe financiële grootboeken over meerjarige transactiegeschiedenissen.

llm

machine-learning

May 6, 2026·mike

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

AgentBench (Liu et al., ICLR 2024) benchmarkt 27 LLM's in 8 interactieve omgevingen — GPT-4 scoorde gemiddeld 4,01 tegenover 0,96 voor het beste open-sourcemodel. De drie dominante foutmodi (overschrijding van de taaklimiet bij 67,9% van de fouten in de kennisgraaf, formaatfouten bij 53,3% van de databasefouten, en ongeldige acties) sluiten direct aan bij de risico's van het inzetten van een Beancount write-back-agent op een echt grootboek.

llm

machine-learning

May 5, 2026·mike

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

Bloomberg trainde een LLM met 50 miljard parameters op 569 miljard tokens aan financiële gegevens en versloeg algemene modellen op benchmarks voor sentiment en tabelredenering — waarna GPT-4 dit evenaarde zonder enige financiële pre-training. Wat het experiment van $10 miljoen onthult over de afwegingen bij domein-pre-training, de tokenisatie van getallen en waarom het gebruik van tools betrouwbaarder is dan interne model-logica voor boekhoudagenten.

llm

machine-learning

May 4, 2026·mike

AutoGen: Multi-Agent Conversatie-frameworks voor Financiële AI

AutoGen (Wu et al., 2023) introduceert een multi-agent conversatie-framework waarin door LLM ondersteunde agenten berichten uitwisselen om taken te voltooien; een configuratie met twee agenten verhoogt de nauwkeurigheid van de MATH-benchmark van 55% naar 69%, en een toegewijde SafeGuard-agent verbetert de detectie van onveilige code met maximaal 35 F1-punten — bevindingen die direct toepasbaar zijn op het bouwen van veilige, modulaire Beancount-automatiseringspijplijnen.

llm

automation

May 3, 2026·mike

Gorilla: Hoe Retrieval-Aware Training LLM API-hallucinaties vermindert van 78% naar 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunt een 7B LLaMA-model met Retriever-Aware Training op opgehaalde API-documentatie, waardoor het aantal hallucinaties daalt van 78% naar 11% ten opzichte van GPT-4 zero-shot — met directe gevolgen voor AI-agenten in de financiële sector waarbij foute accountnamen of omgekeerde tekens fatale fouten zijn in plaats van kleine ongemakken.

llm

machine-learning

May 2, 2026·mike

MemGPT: Virtueel contextbeheer voor LLM-agenten

MemGPT past OS-stijl virtuele geheugenpaging toe op LLM's, gebruikmakend van opslag in drie niveaus — werkgeheugen, recall en archief — om agenten persistent geheugen over sessies heen te geven; op chatbenchmarks voor meerdere sessies behaalt MemGPT met GPT-4 een nauwkeurigheid van 92,5% tegenover een baseline van 32,1% bij een vaste context.

llm

machine-learning

61–72 van 87 berichten tonen

Vorige6 / 8Volgende