Doorgaan naar hoofdinhoud

FinBen: Benchmarking van LLM's over 36 financiële taken — implicaties voor AI in de boekhouding

· 6 min leestijd
Tian Pan
Research Engineer

FinBen verscheen op NeurIPS 2024 als de meest uitgebreide publieke evaluatie van LLM's op financiële taken tot nu toe. Ik wilde het zorgvuldig lezen omdat ik, voordat ik een autonome agent over Beancount-grootboeken ontwerp, een realistisch beeld nodig heb van waar de nieuwste modellen daadwerkelijk staan wat betreft de financiële redeneertaken die een dergelijke agent zou moeten uitvoeren.

De paper

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie en 33 co-auteurs presenteren FinBen, een open-source benchmark die 36 datasets over 24 financiële taken beslaat, georganiseerd in zeven dimensies: informatie-extractie, tekstuele analyse, beantwoorden van vragen (QA), tekstgeneratie, risicobeheer, voorspelling en besluitvorming. Ze evalueren 15 representatieve LLM's — waaronder GPT-4, ChatGPT, Gemini en verschillende open-source modellen die getraind zijn op instructies — en introduceren drie nieuwe datasets voor samenvatting, QA en evaluatie van aandelenhandel.

De centrale motivatie is dat eerdere financiële benchmarks zoals FLUE en FLARE elk slechts een deel van de financiële NLP bestreken, maar niets dat in de buurt kwam van de volledige pijplijn. FinBen is de eerste poging om de hele stack op één plek te bestrijken, en het werd geaccepteerd in de NeurIPS 2024 Datasets and Benchmarks Track, wat het een degelijk stempel van methodologische nauwkeurigheid geeft.

Belangrijkste ideeën

  • Bij herkenning van benoemde entiteiten (NER) scoort GPT-4 0,83 Entity F1 op de FINER-ORD-dataset — sterk, maar dit is de makkelijkste categorie in de benchmark.
  • Op FinQA (numeriek redeneren over financiële rapporten) bereikt GPT-4 0,63 Exact Match; op de conversationele variant ConvFinQA scoort het 0,76. Dit zijn respectabele resultaten, maar het probleem is nog lang niet opgelost.
  • Het domein-specifiek getunede FinMA 7B behaalt 0,88 F1 op FPB-sentiment — hiermee presteert het beter dan GPT-4 op deze specifieke taak, wat bevestigt dat fijnafstemming (fine-tuning) nog steeds loont bij goed gedefinieerde classificatie.
  • Voorspelling van koersbewegingen is de duidelijkste tekortkoming: zelfs GPT-4 scoort ongeveer 0,54 nauwkeurigheid — nauwelijks boven willekeur. De auteurs noemen dit "een opmerkelijke tekortkoming in het vermogen van LLM's om voorspellingen aan te pakken."
  • GPT-4 behaalt een Sharpe-ratio van 1,51 op de handelstaak tegenover 1,03 voor Gemini en een cumulatief rendement van 28,19% tegenover een buy-and-hold rendement van -4,00% tijdens de evaluatieperiode — maar dit is een korte backtest met alle gebruikelijke kanttekeningen.
  • Alle modellen scoorden nul op extractieve samenvatting, en GPT-4 scoorde 0,01 F1 op relatie-extractie. De capaciteiten storten scherp in buiten de comfortzone van tekstclassificatie en open-ended generatie.

Wat standhoudt — en wat niet

De benchmark is oprecht nuttig als onderzoeksinstrument. Het scala aan taken is breder dan alles wat eraan voorafging, en de open-source release betekent dat anderen kunnen voortbouwen op de evaluatie-infrastructuur in plaats van opnieuw te moeten beginnen.

Dat gezegd hebbende, heb ik reële zorgen over wat FinBen ons daadwerkelijk kan vertellen. De evaluatieperiode voor de handel is kort en marktspecifiek; een Sharpe-ratio berekend over een paar maanden op Amerikaanse aandelen is geen stabiel signaal. De nulscores op extractieve samenvatting vertellen ons dat er iets mis is, maar de paper stelt geen diagnose van waarom — is het een probleem met het prompt-formaat, een artefact van de tokenisatie of een echt falen van de redenering? Dit onderscheid is belangrijk voor iedereen die het probeert op te lossen.

De benchmark is bovendien bijna volledig Engelstalig en gericht op de Amerikaanse markt. Dit is niet alleen een kanttekening bij de algemene geldigheid; het betekent dat de resultaten heel weinig zeggen over prestaties op bijvoorbeeld Duitse of Chinese financiële documenten, of in rechtsgebieden met andere boekhoudnormen. Voor een project als Beancount.io, dat een wereldwijd gebruikersbestand bedient, is dit een aanzienlijk hiaat.

Het verhaal rond de op instructies getunede modellen is ook onduidelijker dan het in eerste instantie lijkt. Fijnafstemming helpt bij sentiment (FinMA 7B op 0,88), maar "biedt slechts marginale verbeteringen voor complexe taken zoals QA." De paper rapporteert dit als een bevinding, maar biedt geen mechanistische verklaring. Is er sprake van catastrofaal vergeten van het redeneervermogen van het basismodel? Is de datadistributie van de fijnafstemming te smal? Alleen de reikwijdte van de benchmark kan dit niet beantwoorden.

Waarom dit belangrijk is voor financiële AI

De resultaten van FinBen geven Bean Labs een duidelijkere nulmeting dan we voorheen hadden. De taken die het meest relevant zijn voor een Beancount-grootboekagent — numerieke QA over gestructureerde financiële rapporten (FinQA: 0,63 Exact Match), informatie-extractie uit transactiebeschrijvingen (NER: 0,83 F1) en anomaliedetectie of fraudeclassificatie (risicobeheertaken die een grote spreiding vertonen) — zijn hier allemaal vertegenwoordigd, en geen enkele daarvan is volledig opgelost.

Het falen bij voorspellingen (0,54 op koersbewegingen) is eigenlijk geruststellend voor ons specifiekere gebruiksdoel: we vragen modellen niet om markten te voorspellen, we vragen ze om gestructureerde boekingen te classificeren, te extraheren en terug te schrijven. Die taken vallen in het bereik van 0,63–0,83, afhankelijk van de complexiteit, wat een werkbaar fundament is — hoewel "werkbaar" niet hetzelfde is als "geschikt voor productie zonder menselijke controle."

De kloof tussen gestructureerde extractie en open-ended redeneren vertaalt zich ook direct naar het veiligheidsprobleem bij het terugschrijven. Als een model betrouwbaar een entiteit kan extraheren (F1 0,83) maar moeite heeft om te redeneren over de numerieke implicaties ervan (FinQA 0,63) of om correcte gestructureerde output te genereren (relatie-extractie: 0,01), dan houdt de veiligste architectuur die stappen gescheiden, met expliciete validatie ertussen.

Wat nu te lezen

  • FinMaster (arXiv:2505.13533) — benchmarkt expliciet end-to-end boekhoudworkflows, inclusief journaalposten en afstemming; dichter bij de Beancount-taak dan wat dan ook in FinBen.
  • "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" (arXiv:2305.13062, WSDM 2024) — Beancount-grootboeken zijn in wezen gestructureerde tabellen; deze paper benchmarkt precies de structurele begripsvaardigheden die ten grondslag liggen aan elke agent die grootboeken leest.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — het raamwerk van afwisselend redeneren en handelen is wat de meeste terugschrijf-agents zouden gebruiken; het begrijpen van de faalwijzen daarvan is nu belangrijker nu FinBen heeft laten zien waar de ondergrens van het redeneren werkelijk ligt.