Een kritische lezing van het NAACL 2025-overzicht van Xu en Ding over LLM-gebaseerde anomalie- en OOD-detectie: de detectie-vs-generatie taxonomie houdt stand, maar de bijna volledige afwezigheid van tabelvormige dekking betekent dat financiële AI-beoefenaars zelf inzichten uit visiemodellen moeten synthetiseren.
Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.
Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.
AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.
τ-bench laat zien dat top-LLM's zoals Claude 3.5 Sonnet zakken van een pass@1 van 0,692 naar een pass@4 van 0,462 in retail-klantenservicetaken — een consistentie-vallei met directe gevolgen voor elke write-back agent die op een Beancount-grootboek werkt.
ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.
FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.
Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.