Doorgaan naar hoofdinhoud
Analytics

Alles Over Analytics

8 artikelen
Data analytics techniques and metrics for financial AI systems

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie

AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.