Doorgaan naar hoofdinhoud

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

· 7 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

De ontwikkeling van financiële LLM-benchmarks blijft in omvang toenemen, en Fin-RATE is het duidelijkste voorbeeld tot nu toe van wat er gebeurt als we modellen eindelijk vragen om te doen wat echte analisten doen: een bedrijf niet alleen binnen één dossier volgen, maar over meerdere perioden en ten opzichte van sectorgenoten.

De paper

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, gepubliceerd in februari 2026 door Yidong Jiang, Junrong Chen en collega's van Yale en samenwerkende instellingen, introduceert een benchmark die is opgebouwd uit 2.472 SEC-indieningen van 43 bedrijven in 36 sectoren over de periode 2020–2025. De benchmark organiseert 7.500 door experts gecureerde QA-paren in drie soorten taken die de workflows van professionele analisten weerspiegelen: DR-QA (detail en redenering binnen een enkele indiening), EC-QA (vergelijking tussen entiteiten van twee bedrijven onder een gedeeld onderwerp) en LT-QA (longitudinale tracking van hetzelfde bedrijf over verschillende rapportageperioden). Elk taaktype bevat 2.500 vragen. De evaluatie omvat 17 LLM's — closed-source modellen inclusief GPT-4.1 en GPT-5, open-source algemene modellen zoals DeepSeek-V3 en Llama-3.3-70B, en financieel gespecialiseerde modellen zoals Fin-R1, Fino1-14B, FinanceConnect-13B en TouchstoneGPT-7B. De scorebepaling maakt gebruik van een uniform LLM-as-Judge-framework met drie onafhankelijke rechters (GPT-5, DeepSeek-V3.2, Qwen3-235B) die elk antwoord beoordelen op correctheid en vijf analytische dimensies.

Kernideeën

  • Prestaties storten in naarmate de complexiteit van de taak toeneemt: de nauwkeurigheid daalt met 18,60% van DR-QA (één document) naar longitudinale LT-QA en met 14,35% van DR-QA naar EC-QA (meerdere entiteiten), gemiddeld over alle 17 modellen.
  • GPT-5 met zoeken op het web presteert het best, maar de pieknauwkeurigheid ligt op slechts 43–44% voor alle drie de taaktypes — teleurstellend voor een benchmark die bedoeld is om de workflows van echte analisten te weerspiegelen.
  • Fin-R1, het financieel gespecialiseerde redeneermodel, behaalt 57,48% op DR-QA, maar zakt weg naar 3,32% op EC-QA — een daling van 54 punten die de achteruitgang van elk algemeen model ver overstijgt.
  • In RAG-omgevingen dalen de prestaties van alle modellen tot ver onder de 27%, vergeleken met prestaties op basis van 'gold-context' tot 57,48%; de retrieval-pijplijn, niet de LLM, is de beperkende factor.
  • Het rapport introduceert een taxonomie van 13 fouttypen in vier categorieën: hallucinatie en tegenstrijdigheden, financieel-specifieke numerieke en semantische fouten, fouten in het begrijpen van de zoekopdracht/context en fouten op retrieval-niveau. Ontbrekend bewijs (Missing Evidence) is verantwoordelijk voor 75,44% van de fouten bij de EC-QA-taak onder RAG.
  • Financieel gespecialiseerde modellen vertonen systematisch hogere hallucinatiepercentages dan algemene modellen bij complexe taken, ondanks een betere beheersing van financiële terminologie.

Wat overeind blijft — en wat niet

De structuur met drie paden is werkelijk goed ontworpen. De meeste financiële benchmarks (FinQA, TAT-QA, FinanceBench) behandelen QA als een taak voor een enkel document. Fin-RATE is een van de eerste die expliciet de vergelijking tussen entiteiten en longitudinale tracking als hoofdtaken modelleert, en de resultaten leggen een fundamentele kloof bloot: huidige LLM's gaan redelijk om met QA over geïsoleerde publicaties, maar vallen uiteen zodra ze informatie over documenten, entiteiten of tijdsperioden heen moeten synthetiseren.

De instorting van Fin-R1 is de meest opvallende bevinding van het rapport en ik denk dat deze wordt ondergewaardeerd. Een op financiën afgestemd model dat uitblinkt in extractie uit één document, heeft zichzelf blijkbaar in een hoek getraind: het leerde sjablonen voor het beantwoorden binnen één document, niet redeneerstrategieën voor het relateren van entiteiten en tijdsperioden. Dit is een concrete waarschuwing tegen 'narrow domain' fine-tuning zonder expliciet toezicht op redeneren over meerdere documenten. Het model is waarschijnlijk overfit op het oppervlakkige patroon van "zoek het getal in de indiening" en heeft geen generalisatiepad naar "vergelijk dit getal met het equivalente getal in een andere indiening van een ander bedrijf."

Dat gezegd hebbende, zijn er methodologische zorgen die genoemd moeten worden. GPT-5 is tegelijkertijd een van de geëvalueerde modellen en een van de drie rechters die de antwoorden beoordelen. De auteurs gebruiken drie rechters om individuele bias te verminderen, wat helpt, maar de overlap tussen rechter en model bij het sterkste geëvalueerde model is ongemakkelijk. Het rapport meldt een hoge mate van overeenstemming tussen de rechters, maar kwantificeert niet apart welk deel van de GPT-5-antwoorden door GPT-5 zelf werd beoordeeld, noch of de door GPT-5 zelf beoordeelde scores systematisch verschillen van die van de andere twee rechters. Elke zelfevaluatie-bias zou het resultaat van het best presterende model in de studie opblazen.

De steekproef van 43 bedrijven is ook mager. De dekking van de soorten indieningen is prijzenswaardig breed (10-K, 10-Q, 8-K, 6-K, DEF 14A, en diverse S- en SC-series), maar dezelfde 43 bedrijven komen in alle taken voor. Modellen die de publicaties van deze bedrijven in de pre-training hebben gezien, hebben een niet-gekwantificeerd voordeel, en het rapport bevat geen contaminatie-analyse.

De bevinding over retrieval is belangrijk maar onvolledig. Het rapport stelt vast dat RAG-prestaties met ongeveer 30 punten dalen ten opzichte van de gold-context omdat de retrieval faalt. Maar het benchmarkt slechts één enkele retrieval-setup — het behandelt falende retrieval als een diagnose in plaats van als iets om systematisch te variëren. Een vervolgrapport dat verschillende retrieval-architecturen op Fin-RATE test, zou veel bruikbaarder zijn.

Waarom dit belangrijk is voor financiële AI

Beancount-grootboekaudits vereisen precies de twee vaardigheden waarvan Fin-RATE onthult dat ze niet goed werken: longitudinale tracking (hoe heeft deze rekening zich over de boekjaren ontwikkeld?) en vergelijking tussen entiteiten (sluit de balans van deze dochteronderneming aan bij de geconsolideerde jaarrekening?). De daling van 18,60% in nauwkeurigheid bij temporele tracking is een concreet cijfer dat de verwachtingen moet bijstellen voor elke Beancount-agent die over meerdere rapportageperioden redeneert. Als grensverleggende modellen falen op 43% bij longitudinale SEC QA met gold-context, moet een Beancount-agent die door meerjarige grootboekgeschiedenissen navigeert, worden ontworpen met expliciete retrieval, temporele onderbouwing en menselijke escalatie — niet met end-to-end LLM-inferentie.

De bevinding over de dominantie van retrieval is vooral van belang voor de prioriteitsstelling bij systeemontwerp. Als de prestaties met gold-context bijna het dubbele zijn van de RAG-prestaties, ligt de juiste investering in betere chunking, selectie van fragmenten en retrieval — niet in een capabeler basis-LLM. Dit weerspiegelt wat DocFinQA vond voor SEC-indieningen met een lange context: de pijplijn rondom het model is de bottleneck.

De waarschuwing over Fin-R1 is ook direct van toepassing op de Beancount-use case. Fine-tuning op Beancount DSL-syntaxis en transactiepatronen kan een model opleveren dat het genereren van eenvoudige boekingen goed afhandelt, maar faalt bij de reconciliatie over meerdere rekeningen en perioden die een audit nuttig maakt. Specialisatie zonder training in redeneren over meerdere documenten is kwetsbaar op precies de manieren die Fin-RATE meet.

Wat je nu kunt lezen

  • Fin-R1 (arXiv:2503.16252) — om te begrijpen welke trainingsopzet leidde tot zulke broze prestaties over meerdere documenten, en of redeneren over meerdere documenten überhaupt de bedoeling was.
  • FinTrace (arXiv:2604.10015) — evaluatie op trajectniveau van LLM-tool-aanroepen over 34 financiële taakcategorieën; vult de statische QA-weergave van Fin-RATE aan met een diagnose op procesniveau over waar modellen de juiste tools aanroepen maar niet over de resultaten kunnen redeneren.
  • OpenHands (arXiv:2407.16741) — het open agent-platform dat ten grondslag ligt aan de TheAgentCompany-evaluaties; het begrijpen van de architectuur verduidelijkt welke baseline-agentcapaciteiten beschikbaar waren en welke tekortkomingen te wijten zijn aan de moeilijkheidsgraad van de taak in plaats van aan platformbeperkingen.