Doorgaan naar hoofdinhoud
Financial Reporting

Alles Over Financial Reporting

12 artikelen
Generating and auditing financial reports with language models

FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein

FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark voor multimodale RAG met visuele citaten in de financiële sector, met meer dan 112.000 documentpagina's en 1.394 door mensen geannoteerde QA-paren. Topmodellen behalen slechts 20–61% recall op blokniveau voor citaten, en multimodale retrieval presteert bijna 50 procentpunten beter dan alleen tekst.

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

FinDER benchmarkt RAG op 5.703 echte vragen van hedgefondsanalisten tegenover S&P 500 10-K-deponeringen; E5-Mistral behaalt slechts 25,95% context recall, en vragen met veel afkortingen kosten 8,2 precisiepunten — het bewijs dat query-normalisatie, en niet betere embeddings, de eerste oplossing is voor financiële AI-pijplijnen.

DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten

DocFinQA vervangt de gecureerde passages van 700 woorden in FinQA door volledige SEC-documenten van 123.000 woorden, wat een 175x toename in context blootlegt die de nauwkeurigheid van GPT-4 op lange documenten bijna halveert. Retrieval-pipelines slagen er in 45% van de gevallen niet in om het juiste fragment te vinden bij HR@3 — en modellen met een lange context zijn geen vervanging.

MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen

MultiHiertt (ACL 2022) introduceert 10.440 QA-paren uit echte financiële rapporten met gemiddeld 3,89 hiërarchische tabellen elk; state-of-the-art modellen scoren 38% F1 tegenover 87% voor mensen, met een boete van 15 punten voor vragen over meerdere tabellen — een kwantificering van de retrieval-kloof die financiële AI moet dichten.

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.

TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen

TAT-QA is een benchmark met 16.552 vragen over hybride tabel-plus-tekst contexten uit financiële verslagen die aantoont dat bewijsvoering — niet rekenkunde — het belangrijkste knelpunt is in AI voor de financiële sector; tegen 2024 bereikten gefinetunede 7B LLM's een F1-score van 83%, waarmee het gat met het menselijke plafond van 91% grotendeels werd gedicht.

FinQA: De benchmark voor het meten van numeriek redeneren door AI in financiële rapporten

FinQA (EMNLP 2021) bouwde 8.281 QA-paren op basis van S&P 500-kwartaalcijfers die meerstaps rekenprogramma's vereisen. Neurale modellen scoorden bij de release 61% tegenover 91% voor menselijke experts; de nauwkeurigheid keldert naar 22% bij programma's met drie of meer stappen. De foutmodi — domeinconstanten, cross-modaliteit grounding, ketenlengte — sluiten direct aan bij de uitdagingen waar Beancount-agents tegenwoordig voor staan.