FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein
Financiële AI werd gedomineerd door RAG op basis van alleen tekst, maar echte financiële documenten staan vol met grafieken, tabellen en figuren die OCR niet volledig kan vastleggen. FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark die multimodale RAG met visuele citaten in het financiële domein evalueert, en de resultaten zijn een ontnuchterende herinnering aan hoe ver productiesystemen nog moeten gaan.
Het artikel
Zhao, Jin, Li en Gao van de Universiteit van Peking introduceren FinRAGBench-V, een tweetalige benchmark samengesteld uit echte financiële documenten: onderzoeksrapporten, jaarrekeningen, prospectussen, academische papers, tijdschriften en nieuwsartikelen. Het retrieval-corpus is aanzienlijk — 60.780 Chinese pagina's en 51.219 Engelse pagina's over ongeveer 1.100 documenten per taal — gekoppeld aan 1.394 door mensen geannoteerde QA-paren die zeven vraagcategorieën beslaan: tekstuele gevolgtrekking, extractie van grafieken en tabellen, numerieke berekening, tijdgevoelige zoekopdrachten en redeneren over meerdere pagina's. Naast de dataset is de belangrijkste bijdrage van het artikel RGenCite, een basissysteem dat antwoorden genereert samen met visuele citaten op pixelniveau in de vorm van bounding-box-coördinaten die de specifieke documentgebieden markeren die elke bewering ondersteunen.
Belangrijkste inzichten
- Multimodale retrieval domineert alleen tekst met een verpletterende marge: ColQwen2, een vision-language retriever gebouwd op embeddings van pagina-afbeeldingen, behaalt een Recall@10 van 90,13% (Chinees) en 85,86% (Engels). De beste op tekst gebaseerde retrievers, BM25 en BGE-M3, blijven steken rond de 42,71%. Dit gat is geen afrondingsfout.
- De nauwkeurigheid van de generatie is laag, zelfs voor grensverleggende modellen: GPT-4o op Engels bereikt een nauwkeurigheid van 43,41% (ROUGE 24,66); o4-mini op Chinees bereikt 58,13% (ROUGE 38,55). Dit zijn topmodellen in eigendom met sterke retrieval.
- Citaties op paginaniveau werken; op blokniveau niet: Recall op paginaniveau ligt tussen 75–93% voor de beste modellen. Recall op blokniveau — weten welke specifieke tabelcel of grafiekregio een bewering onderbouwt — daalt naar 20–61%. Dit is de belangrijkste kloof voor controleerbaarheid.
- Numeriek redeneren en gevolgtrekkingen over meerdere pagina's laten modellen als eerste falen: Vragen die berekeningen over pagina's of tijdsperioden vereisen, zijn de punten waar de nauwkeurigheid bij alle geteste systemen het sterkst daalt.
- Eigen modellen presteren aanzienlijk beter dan open-source alternatieven: De kloof tussen gesloten API's en open-source is hier groter dan bij de meeste NLP-benchmarks, wat suggereert dat visueel financieel redeneren onopgelost blijft voor open modellen.
- Automatische evaluatie voor citaten is onvolmaakt: De citatie-evaluator voor het bijsnijden van afbeeldingen behaalt een Pearson r = 0,68 met menselijke beoordelingen — redelijk, maar niet betrouwbaar genoeg om volledig op te vertrouwen zonder steekproeven.
Wat standhoudt — en wat niet
De bevinding over retrieval is het meest geloofwaardige resultaat in het artikel. Een gat van bijna 50 procentpunten tussen multimodale en tekst-alleen retrievers bij meer dan 60.000 pagina's is te groot om te negeren. Wanneer je een financieel document OCR't voordat je het indexeert, vernietig je structurele lay-outsignalen — in welke kolom een getal verschijnt, of een bijschrift van een figuur de interpretatie van een tabel wijzigt — die enorm belangrijk blijken te zijn voor retrieval.
De generatiecijfers zijn eerlijk, maar moeilijk op zichzelf te interpreteren. De auteurs verklaren niet welk deel van de nauwkeurigheidskloof toe te schrijven is aan retrievalfouten versus generatiefouten. Gezien het feit dat de Recall@10 voor het Engels al 85,86% is, moet een aanzienlijk deel van de fouten aan de kant van de generatie liggen in plaats van aan de kant van de retrieval. Het kennen van die uitsplitsing zou verduidelijken of het knelpunt multimodale redenering is of iets fundamentelers over hoe MLLM's omgaan met financiële taal.
De evaluatieset van 1.394 QA-paren is klein voor de reikwijdte van de benchmark. Verdeeld over zeven categorieën en twee talen, hebben sommige segmenten ruim minder dan 200 voorbeelden. De statistische significantie van bevindingen op categorieniveau wordt impliciet gelaten. Dit is niet ongebruikelijk voor een benchmark-artikel, maar het betekent wel dat zorgvuldig geselecteerde vergelijkingen gemakkelijk te construeren zouden zijn.
Het citatie-evaluatieprotocol is een interessante bijdrage, maar een Pearson r = 0,68 met menselijke beoordelingen is niet sterk genoeg om automatische evaluatie te beschouwen als de absolute waarheid voor onderbouwing op blokniveau. De auteurs erkennen dit; toekomstig werk aan betere citatiemetrieken wordt expliciet aangegeven.
Waarom dit belangrijk is voor financiële AI
Beancount werkt met platte tekst-grootboekbestanden, wat RAG op basis van alleen tekst verdedigbaar maakt voor het opvragen van eerdere transacties. Maar de bredere boekhoudkundige taak omvat documenten die uitdrukkelijk geen platte tekst zijn: bankafschriften in PDF, gescande facturen, afbeeldingen van bonnen, jaarverslagen met ingebedde tabellen en grafieken. Op het moment dat een Beancount-agent een grootboekboeking moet afstemmen met een brondocument — verifiëren of een bepaalde afschrijving overeenkomt met de factuur in het dossier — voert deze precies de taak uit die FinRAGBench-V benchmarkt.
De bevinding over citaten op blokniveau is het meest relevant voor deze use case. Als een agent een grootboekboeking moet rechtvaardigen door naar een specifiek regelitem in een PDF te wijzen, en het beste beschikbare systeem slechts 20–61% recall op blokniveau behaalt, dan is dat niet klaar voor een audit. Elke Beancount-pijplijn die gescande brondocumenten verwerkt, heeft een menselijke controle nodig totdat dit getal aanzienlijk verbetert.
De kloof in retrieval-modaliteit pleit ook sterk tegen puur tekstuele pijplijnen voor documentverwerking. Een afbeelding van een bon bevat lay-outinformatie — bedragvelden, namen van leveranciers, posities van regelitems — die door OCR wordt vernietigd. Die lay-outinformatie is precies wat een totaaltal op een regel onderscheidt van een belastingbedrag, en FinRAGBench-V laat zien dat multimodale retrievers dit benutten op manieren die tekst-retrievers niet kunnen.
Wat nu te lezen
- ColPali: Efficient Document Retrieval with Vision Language Models — de voorganger van ColQwen2 die de visuele pagina-embedding-aanpak introduceerde waarop de beste retriever van FinRAGBench-V is gebouwd [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — pakt visuele QA met meerdere documenten aan met een flexibel raamwerk dat enkelvoudige en meervoudige visuele redeneringen over pagina's heen afhandelt [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — een bijbehorende benchmark uit 2025 die de tijdgevoeligheid in financiële multimodale RAG evalueert, direct aanvullend op de categorie tijdgevoelige vragen van FinRAGBench-V [arXiv:2503.05185]
