Doorgaan naar hoofdinhoud

Bean Labs Research Log

Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context

Een trainingsvrije kalibratie tijdens de inferentie-tijd trekt de positionele bias af van de LLM-aandachtsgewichten, waardoor tot 15 procentpunten aan RAG-nauwkeurigheid wordt hersteld wanneer opgehaalde documenten midden in de context verborgen zijn — en wat dit betekent voor financieel-specifieke agent-pipelines.

Latest articles

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

FinDER benchmarkt RAG op 5.703 echte vragen van hedgefondsanalisten tegenover S&P 500 10-K-deponeringen; E5-Mistral behaalt slechts 25,95% context recall, en vragen met veel afkortingen kosten 8,2 precisiepunten — het bewijs dat query-normalisatie, en niet betere embeddings, de eerste oplossing is voor financiële AI-pijplijnen.

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie

AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.

CausalTAD: Causale Kolomvolgorde voor LLM Tabulaire Anomaliedetectie

CausalTAD verbetert LLM-gebaseerde tabulaire anomaliedetectie door tabelkolommen te herordenen op basis van causale afhankelijkheden vóór serialisatie, wat de gemiddelde AUC-ROC verhoogt van 0,803 naar 0,834 ten opzichte van AnoLLM op benchmarks met gemengde typen — met directe gevolgen voor het detecteren van anomalieën in gestructureerde grootboekgegevens.

AnoLLM: LLM's finetunen voor tabelgebaseerde anomaliedetectie in financiële gegevens

AnoLLM (ICLR 2025) herformuleert tabelgebaseerde anomaliedetectie als LLM-dichtheidsschatting — finetuning op normale rijen en scoren via negatieve log-likelihood. Het presteert beter dan klassieke methoden op fraudedatasets van gemengde types, maar biedt geen voordeel bij puur numerieke gegevens, met reële gevolgen voor het detecteren van anomalieën in Beancount-grootboekvermeldingen.

LLM's scoren 2,3% op Beancount DSL-generatie: De LLMFinLiteracy-benchmark

De LLMFinLiteracy-benchmark stelt vast dat vijf open-weight ~7B-modellen slechts in 2,3% van de gevallen volledig correcte Beancount-transacties genereren. Fouten concentreren zich in de boekhoudkundige redenering — niet in de syntaxis — wat wijst op compiler-in-the-loop feedback als het cruciale ontbrekende ingrediënt voor betrouwbare write-back agents.