Doorgaan naar hoofdinhoud

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

FinDER (arXiv:2504.15800) is een retrieval-benchmark gebouwd rond een eenvoudige maar ondergewaardeerde observatie: de zoekopdrachten (queries) die echte financiële professionals typen, lijken in niets op de gepolijste vragen in academische benchmarks. Ik lees dit omdat het zich bevindt op het snijvlak van twee onderwerpen die ik volg: de retrieval-kloof in financiële AI, en het praktische realisme-probleem dat DocFinQA en FinanceBench aan het licht begonnen te brengen.

Het paper

2026-06-28-finder-financial-dataset-rag-evaluation

Chanyeol Choi, Jihoon Kwon en collega's bij een financieel AI-bedrijf presenteren een dataset van 5.703 door experts geannoteerde query–bewijs–antwoord-tripletten, afkomstig van een echte Q&A-dienst voor hedgefondsanalisten. De documenten zijn Form 10-K-deponeringen van 490 S&P 500-bedrijven, verzameld via SEC EDGAR. Wat FinDER onderscheidt van eerdere benchmarks is de query-kant: 89,86% van de queries bevat drie of meer domeinspecifieke afkortingen of acroniemen. In plaats van "Wat is de totale omzet van bedrijf X voor het boekjaar 2023?", zou een echte analist kunnen typen: "GOOGL 10-K FY23 revs breakdown by segment." De dataset werd gepubliceerd op de ICLR 2025 Workshop on Advances in Financial AI en verscheen later op ICAIF 2025.

Belangrijkste ideeën

  • Retrieval-recall is over de hele linie schokkend laag: E5-Mistral (de beste dense retriever) behaalt in totaal slechts 25,95% context recall; BM25 haalt 11,68%. De categorie "Financials" — de categorie die het meest relevant is voor boekhouding — is het moeilijkst: respectievelijk 15,84% en 6,42%.
  • Alleen query-ambiguïteit kost al 8,2 precisiepunten: Bij het testen van E5-Mistral op 500 queries vergeleken de auteurs goedgevormde parafrases (33,9 precisie) met de echte afgekoorte queries (25,7 precisie). Het verschil is volledig toe te schrijven aan de verwerking van afkortingen/acroniemen, niet aan de complexiteit van de documenten.
  • Retrieval-kwaliteit is de dominante bottleneck voor generatie: LLM's zonder context scoren bijna nul (9–10% correct); met de top-10 opgehaalde passages bereiken ze 29–34%; met perfecte "oracle"-context springen ze naar 60–68%. Dat gat van 35 punten tussen realistische en oracle-omstandigheden is groter dan het gat tussen open-source en frontier-modellen.
  • Compositionele rekenkunde hapert zelfs met goede retrieval: Taken met berekeningen in meerdere stappen (compositionele queries) bereiken slechts ~20% correctheid over alle vier de modellen — Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill en Qwen-QWQ — zelfs met de top-10 opgehaalde passages. GPT-o1 loopt voorop bij vermenigvuldigingstaken met 42,90%, maar zakt naar 27,78% bij delingen.
  • LLM-reranking voegt een bescheiden maar consistente verbetering toe: Door modellen de top-10 E5-Mistral resultaten te laten herordenen (rerank) voordat ze antwoorden, behaalt Claude-3.7-Sonnet een F1 van 63,05 en GPT-o1 62,90. Deepseek-R1-Distill blijft achter op 60,01, ondanks sterke prestaties op het gebied van gestructureerd redeneren elders.
  • Moeilijkheidsgraad per categorie is ongelijk: Risico-queries zijn het makkelijkst op te halen (E5-Mistral: 33,07 recall); Financials blijven het lastigst (15,84). Dit correleert met de query-structuur — risicotoelichtingen gebruiken natuurlijke taal, financiële tabellen gebruiken compacte numerieke notatie.

Wat overeind blijft — en wat niet

De kernbijdrage is solide: dit is een echte query-distributie van werkende analisten, en het probleem met afkortingen is reëel. Elke benchmark die is opgebouwd uit Wikipedia of crowdsourcing in de stijl van FinQA mist dit. De evaluatiestructuur met drie niveaus — geen context, realistische retrieval, oracle-context — is het juiste ontwerp; het scheidt de retrieval-kwaliteit duidelijk van de redeneerkwaliteit en toont het resterende generatie-gat aan (nog steeds ~32–34% falen, zelfs met perfecte context bij kwalitatieve vragen).

Waar het paper het zwakst is, is de reproduceerbaarheid. Op het moment van publicatie was de dataset niet publiekelijk beschikbaar — de auteurs verklaarden dat ze "van plan zijn deze later publiekelijk vrij te geven." Dit is een aanzienlijk probleem voor een workshop-paper dat zichzelf presenteert als een evaluatiestandaard. Benchmarks die niet worden vrijgegeven, zijn geen benchmarks; het zijn casestudy's. Sindsdien is het verschenen op ICAIF 2025, dus een release kan zijn gevolgd, maar de arXiv-versie bevestigt dit niet.

De retrieval-evaluatie gebruikt ook slechts vier enkelstapsmodellen (BM25, GTE, mE5, E5-Mistral). Er is geen hybride retrieval, geen query-expansie, geen HyDE, geen herschrijfstap die specifiek gericht is op het afkortingsprobleem. Gezien het feit dat de auteurs het afkortingsgat nauwkeurig hebben gekarakteriseerd, is het verrassend dat ze de voor de hand liggende oplossing niet testen: de query uitbreiden ("GOOGL" → "Alphabet Inc.") vóór de retrieval. Dat experiment ontbreekt.

De resultaten van de generatie verdienen een nadere blik. De ~9–10% prestatie zonder context is geen nuttige ondergrens — het is in feite nul — maar het oracle-plafond van 60–68% is informatiever dan het lijkt. Zelfs met de juiste passage in de hand falen de beste modellen op ongeveer een derde van de kwalitatieve vragen en vier vijfde van de compositionele rekenkunde. Dat plafond is belangrijk: het betekent dat retrieval alleen het probleem niet kan oplossen.

Waarom dit belangrijk is voor financiële AI

De query-distributie in FinDER komt goed overeen met hoe Beancount-gebruikers daadwerkelijk interageren met een grootboek-agent. Een gebruiker die zijn rekeningen al jaren bijhoudt, zal afgekoorte, contextuele queries typen — "AMZN kaart Q3 reimb?" in plaats van "Wat zijn de Amazon creditcard-terugbetalingen in Q3?". Standaard embedding-modellen zullen er niet in slagen de juiste boekingen op te halen omdat ze zijn getraind op schone natuurlijke taal. De daling van 8,2 punten in precisie van schone naar echte queries is waarschijnlijk conservatief voor een persoonlijk grootboekdomein, waar eigenzinnige afkortingen ("vve bijdr" voor "bijdrage vereniging van eigenaren") nog verder afliggen van trainingsdata dan de standaard SEC-afkortingen.

Het 25,95% context recall-plafond op E5-Mistral is een dwingende factor: elke Beancount RAG-pijplijn moet rekening houden met een grote fractie gemist bewijs. Eén implicatie is dat re-retrieval met een hoge recall (meerdere stappen, diverse query-formuleringen) belangrijker is dan het verhogen van de F1 in een enkele stap. Een andere is dat query-normalisatie — het koppelen van gebruikersafkortingen aan canonieke accountnamen vóór de retrieval — een expliciete voorverwerkingsstap moet zijn en niet aan het embedding-model moet worden overgelaten.

De 20% nauwkeurigheid van compositionele rekenkunde, zelfs met oracle-context, is een apart signaal: voor Beancount-rekentaken is de bottleneck de redenering, niet de retrieval. PAL-stijl offloading (het genereren van Python-rekenwerk in plaats van berekeningen in vrije tekst) blijft het juiste antwoord voor numerieke taken, ongeacht hoe goed de retrieval wordt.

Wat nu te lezen

  • Fin-RATE (arXiv:2602.07294) — de bijbehorende benchmark voor tracking over meerdere perioden op SEC-deponeringen; de nauwkeurigheid daalt met 18,60% bij temporele taken, wat direct aansluit op het Beancount-probleem van meerjarige grootboeken.
  • IRCoT (arXiv:2212.10509, ACL 2023) — het verweven van retrieval met chain-of-thought redeneren; de meerstaps retrieval-structuur pakt direct de lage enkelstaps recall aan die FinDER blootlegt.
  • Query-expansie met LLM's voor domeinspecifieke retrieval — er is nog geen enkel benchmark-paper dat dit goed dekt, maar het FinDER-afkortingsgat maakt dit tot een onderzoeksprioriteit van de eerste orde; zoeken naar "HyDE financial domain" en "query expansion SEC filings 2025" is het juiste startpunt.