Doorgaan naar hoofdinhoud

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

· 5 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

FinanceBench verschijnt op een moment dat elke enterprise AI-leverancier beweert dat hun systeem "vragen kan beantwoorden op basis van uw financiële documenten." Dit artikel van Patronus AI onderwerpt die claims aan een zware test met behulp van echte SEC-filings en zorgvuldig samengestelde open-book vragen. De resultaten zijn ongemakkelijke kost voor iedereen die financiële AI bouwt.

Het artikel

2026-05-12-financebench-open-book-financial-qa-benchmark

Islam et al. introduceren FinanceBench: A New Benchmark for Financial Question Answering (arXiv:2311.11944), een testsuite van 10.231 vragen over beursgenoteerde bedrijven, gebaseerd op echte SEC-filings — 10-K jaarverslagen, 10-Q kwartaalcijfers, 8-K actuele verslagen en transcripten van winstgesprekken. In tegenstelling tot eerdere financiële QA-datasets (FinQA, TAT-QA), die vooraf geëxtraheerde tabellen en passages presenteren, vereist FinanceBench dat een systeem bewijsmateriaal uit volledige documenten haalt voordat het antwoord geeft. Dat is de realistische setting. De vragen zijn zo ontworpen dat ze feitelijk ondubbelzinnig zijn en, in de woorden van de auteurs, een "minimale prestatienorm" vormen.

Het team evalueerde 16 configuraties verspreid over GPT-4-Turbo, Llama2 en Claude2 via vier retrieval-strategieën: closed-book (geen retrieval), shared vector store, per-document vector store en long-context prompts waarbij de volledige relevante pagina wordt aangeboden. Menselijke beoordelaars hebben alle 2.400 antwoorden in 150 open-source cases handmatig gecontroleerd.

Belangrijkste inzichten

  • Retrieval is niet de bottleneck. Zelfs wanneer GPT-4-Turbo de oracle-passage krijgt — de exacte pagina die het antwoord bevat — wordt slechts een nauwkeurigheid van 85% bereikt. Long-context prompting (automatisch de juiste pagina aanbieden) scoort 79%. Perfecte retrieval levert je slechts zes punten extra op.
  • Vector-store RAG is het echte probleem. GPT-4-Turbo met een per-document vector store: 50% correct, 39% geweigerd. Met een gedeelde vector store over verschillende bedrijven heen: 19% correct, 68% geweigerd. De kop "81% uitvalpercentage" komt voort uit die gedeelde store-opstelling — de configuratie die de meeste enterprise-demo's daadwerkelijk gebruiken.
  • Modellen falen op verschillende manieren. Llama2 hallucineert agressief (54–70% onjuist); GPT-4-Turbo weigert (39–68% geweigerd in plaats van fout). Beide vormen van falen zijn onacceptabel in productie, maar ze vormen geen gelijkwaardige risico's.
  • 66% van de vragen vereist numeriek redeneren. Groeicijfers, marges, jaar-op-jaar verschuivingen. Dit is waar modellen het vaakst de fout in gaan — rekenfouten, verwarring over eenheden, tekenfouten.
  • Long context redt de situatie bijna. Claude2 long context: 76% correct. GPT-4-Turbo long context: 79%. Dit zijn de beste praktische cijfers, behaald door retrieval over te slaan en de hele relevante pagina direct aan te bieden.
  • Zelfs het orakel is niet waterdicht. Met perfect bewijsmateriaal ligt het plafond op 85%, niet op 100%. Vijftien procent van de fouten zijn pure redeneerfouten waarbij retrieval geen rol speelt.

Wat standhoudt — en wat niet

Het ontwerp van de benchmark is solide. De nadruk op echte documenten in plaats van vooraf geëxtraheerde fragmenten is de juiste methodologische keuze — het test wat er echt toe doet bij implementatie. De handmatige evaluatie van 2.400 antwoorden is kostbaar en geloofwaardig.

Wat ik minder overtuigend vind, is het trekken van ranglijsten op basis van n=150. Het verschil tussen Claude2 long context (76%) and GPT-4-Turbo long context (79%) is statistisch betekenisloos bij die steekproefomvang, maar het artikel presenteert het als een rangschikking. De volledige benchmark van 10.231 vragen bestaat, maar wordt niet openbaar gescoord, wat onafhankelijke reproductie beperkt.

Het resultaat van het orakel is ook de belangrijkste en minst geanalyseerde bevinding. Als modellen 15% van de tijd falen met de juiste pagina in de hand, ligt het probleem bij redeneren en rekenen, niet bij retrieval. Het artikel noemt rekenhulpmiddelen en chain-of-thought als toekomstig werk — die experimenten hadden de kern van dit artikel moeten vormen, niet de voetnoot.

De benchmark erkent ook dat deze zich richt op "minimale prestaties": vragen over één enkel document met ondubbelzinnige antwoorden. Redeneren over meerdere documenten, meerjarige trends en vergelijkingen tussen bedrijven zijn uitgesloten. Artikelen die het cijfer van 79% voor long context citeren, zullen dat voorbehoud zelden vermelden.

Waarom dit belangrijk is voor financiële AI

De Beancount "write-back" use-case sluit bijna direct aan op de faalmodi van FinanceBench. Een agent die een transactie ophaalt en controleert of het bedrag overeenkomt met een bankafschrift, voert dezelfde taak van retrieval-gevolgd-door-rekenen uit die deze benchmark meet. Het orakelplafond — 85% zelfs met perfecte context — is de relevante ontwerpbeperking: zelfs als de agent de juiste grootboekpost vindt, is er een reële kans dat deze de vergelijking verkeerd berekent, het teken verwisselt of de eenheden verkeerd leest.

Het verschil in falen tussen Llama2 en GPT-4 is van belang voor de agent-architectuur. Een weigering is herstelbaar (doorsturen naar menselijke controle); een gehallucineerde match die in het grootboek wordt vastgelegd, is dat niet. Dit pleit voor een voorkeur voor conservatief weigeringsgedrag boven zelfverzekerde hallucinatie, zelfs ten koste van een lager schijnbaar succespercentage.

Het voordeel van long context (79% tegenover 50%) is in de praktijk frustrerend voor grootboektoepassingen. Meerjarige Beancount-bestanden zijn te groot om in hun geheel aan te bieden. Het oplossen van retrieval over compacte numerieke documenten — en niet alleen tekst-retrieval — blijft een onopgelost probleem.

Wat u nu kunt lezen

  • FinQA: A Dataset of Numerical Reasoning over Financial Data (Chen et al., EMNLP 2021, arXiv:2109.00122) — de voorloper-benchmark die FinanceBench expliciet verbetert; nuttig om te begrijpen wat het vakgebied goed deed voordat retrieval uit echte documenten vereist was.
  • DocFinQA: A Long-Context Financial Reasoning Dataset (Reddy et al., ACL 2024) — breidt FinanceBench uit met lastigere multi-hop vragen die redeneren over verschillende secties binnen één filing vereisen.
  • PAL: Program-Aided Language Models (Gao et al., arXiv:2211.10435, ICML 2023) — besteedt rekenwerk uit aan een Python-interpreter, wat direct een oplossing biedt voor de 66% van de FinanceBench-vragen die falen op numeriek redeneren.