FinMaster Benchmark: Waarom LLM's 96% scoren op financiële geletterdheid maar 3% op het genereren van overzichten
Het FinMaster-paper belandde in mijn leeslijst vlak na ReAct. Als ReAct gaat over hoe agents beslissen wanneer ze moeten handelen, stelt FinMaster een moeilijkere vraag: hoe goed presteren de beste LLM's van vandaag op de daadwerkelijke boekhoudkundige workflows die die agents moeten uitvoeren? Ingediend in mei 2025, is het de eerste benchmark die ik heb gezien die de volledige pipeline beslaat—financiële geletterdheid, boekhouding, audit en consultancy—in één coherent evaluatiekader.
Het paper
Jiang et al. introduceren FinMaster (arXiv:2505.13533), een driedelige benchmark voor het evalueren van LLM's op financiële workflows. De eerste component, FinSim, is een generator voor synthetische data die vijf soorten bedrijven simuleert en grootboektransacties produceert—zowel correcte als opzettelijk foutieve—om testscenario's te vullen zonder zorgen over de privacy van echte data. De tweede, FinSuite, bundelt 183 taken verspreid over financiële geletterdheid, boekhouding, audit en consultancy op verschillende moeilijkheidsgraden. De derde, FinEval, biedt een uniforme scoring-interface. Samen claimen de auteurs dat FinMaster de eerste benchmark is die de volledige financiële pipeline dekt met oneindige, privacy-veilige datageneratie—een claim die standhoudt in vergelijking met statische voorgangers zoals FinBen en FinanceBench.
Kernideeën
- De afgrond bij complexiteit: Modellen scoren gemiddeld ~96% op financiële geletterdheid (balansen en resultatenrekeningen lezen), vallen dan terug naar 40–60% bij elementaire boekhoudkundige berekeningen, naar minder dan 20% bij boekhoudkundige taken met meerdere stappen, en naar slechts 3% bij het genereren van financiële overzichten. Geletterdheid en berekening zijn niet dezelfde vaardigheid.
- Foutvoortplanting is ernstig: Bij adviestaken hadden berekeningen met een enkele metriek een gemiddelde nauwkeurigheid van 58%; scenario's met meerdere metrieken die die berekeningen aaneenschakelen, zakten naar 37%—een daling van 21 punten door het opstapelen van kleine fouten.
- Het klassement is krap aan de top: o3-mini (gemiddelde 0,73), Claude-3.7-Sonnet (0,72) en DeepSeek-V3-2503 (0,70) liggen dicht bij elkaar, wat suggereert dat de benchmark niet triviaal is, maar ook nog geen plafond heeft bereikt.
- Boekhouding is het moeilijke domein: Over alle zeven geëvalueerde modellen varieerden de boekhoudkundige scores van slechts 0,04 tot 0,35—far below any other category. Het genereren van overzichten met 3% betekent dat LLM's een transactiejournaal nog niet betrouwbaar kunnen synthetiseren tot een coherent financieel overzicht.
- Reasoning-modellen helpen in de marge: o3-mini loopt voorop, maar niet doorslaggevend. Chain-of-thought-stijl redeneren bestaat, maar kan de kloof van 93 punten tussen geletterdheid en het genereren van overzichten niet overbruggen.
- FinSim maakt stresstesten op schaal mogelijk: Eerdere benchmarks gebruiken statische, vaste datasets die na verloop van tijd gevoelig zijn voor contaminatie. FinMaster kan op aanvraag nieuwe scenario's genereren, wat van belang is om te onderzoeken of modellen generaliseren of enkel uit het hoofd leren.
Wat standhoudt — en wat niet
Het kernresultaat—dat financieel redeneren met meerdere stappen sterk verslechtert—is geloofwaardig en komt overeen met patronen uit LOG-001 (FinBen) en LOG-002 (Toolformer). Ik geloof de bevinding over foutvoortplanting; het is structureel vergelijkbaar met wat er gebeurt in elke rekenkundige keten. De FinSim-generator is een oprechte methodologische bijdrage: een benchmark die verse scenario's kan genereren, weerstaat het memorisatieprobleem dat statische financiële datasets teistert.
Waar ik minder van overtuigd ben: 183 taken is mager voor een benchmark die claimt een holistische dekking te bieden. Vijfendertig audit-taken kunnen een domein dat zo breed is als financiële audit niet karakteriseren, waar fouttaxonomieën in de echte wereld honderden vermeldingen hebben. Het paper herleidt het hele domein tot 12 basis-fouttypen, wat de heterogeniteit van werkelijke auditbevindingen verhult.
De enkele geaggregeerde score op de ranglijst verbergt ook belangrijke patronen tussen verschillende domeinen. Audit en consultancy hebben per model zeer verschillende profielen, en het middelen daarvan levert een getal op dat makkelijk te citeren is, maar moeilijk om op te acteren.
De beperking van synthetische data is een tweesnijdend zwaard. FinSim genereert schone, goed gestructureerde grootboekgegevens. Echte boekhoudsystemen bevatten decennia aan erfenis in coderingskeuzes, afrondingsartefacten van valuta en tussentijdse correcties die geen enkele simulator vastlegt. Een score van 3% op het genereren van synthetische overzichten is grimmig; dezelfde meting op de rommelige boeken van een echt bedrijf zou waarschijnlijk nog grimmiger zijn. Het paper is bovendien alleen tekst—de auteurs erkennen de multimodale kloof maar meten deze niet. Het meeste boekhoudwerk bevindt zich in feite in gescande PDF's en spreadsheets.
Waarom dit belangrijk is voor AI in de financiële sector
Dit is het meest direct relevante paper dat ik sinds FinBen heb gelezen voor de Bean Labs-agenda. De use-case van Beancount is in wezen een subset van wat FinMaster evalueert: boekhouding op transactieniveau, berekeningen met meerdere stappen en rapportage. Die 3% op het genereren van overzichten is een ontnuchterend cijfer. Het vertelt me dat zelfs met een goed ontworpen ReAct-agent-framework, het vermogen van het onderliggende model om een correcte Beancount-balans te synthetiseren uit een transactiejournaal onbetrouwbaar is zonder gespecialiseerde fine-tuning of retrieval-ondersteuning.
Het resultaat van de foutvoortplanting is direct relevant voor de veiligheid van write-backs. Als een keten van adviestaken 21 punten aan nauwkeurigheid verliest van stap één naar stap twee, dan stapelt een autonome Beancount-agent die een reconciliatie in drie stappen uitvoert fouten op in elke fase. Dit is een sterk argument om agent-taken op te splitsen in de kleinst mogelijke atomaire operaties en tussenresultaten te verifiëren in plaats van te vertrouwen op end-to-end LLM-redenering.
FinSim suggereert ook een concrete richting voor Bean Labs: een Beancount-specifieke transactiesimulator zou gelabelde testcases kunnen genereren voor het evalueren en fine-tunen van modellen op grootboekbewerkingen. De architectuur is er al; het domein moet alleen nog worden overgezet.
Wat nu te lezen
- Financial Statement Analysis with Large Language Models (Alex Kim, Maximilian Muhn, Valeri Nikolaev; arXiv:2407.17866) — test het vermogen van GPT-4 om de richting van inkomsten te voorspellen op basis van financiële overzichten, waarbij pariteit wordt bereikt met gespecialiseerde ML-modellen; een nuttig tegenpunt voor de grimmige cijfers van FinMaster over het genereren van overzichten.
- FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — meer granulaire audit-evaluatie met redeneren over meerdere documenten; vult de beperkte dekking van FinMaster met 35 audit-taken aan.
- AuditBench: A Benchmark for Large Language Models in Financial Statement Auditing (Springer 2025) — koppelt gesynthetiseerde transactiedata aan echte financiële tabellen om foutdetectie en uitleg te testen; direct vergelijkbare methodologie met de audit-module van FinMaster.
