Doorgaan naar hoofdinhoud

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

De meeste RAG-benchmarks in de financiële wereld vragen of een systeem informatie kan ophalen en beantwoorden — punt uit. OmniEval (EMNLP 2025, arXiv:2412.13018) van Shuting Wang et al. bij RUC stelt een moeilijkere vraag: blijven de prestaties overeind in de volledige matrix van taaktypen en financiële onderwerpen? Ik lees het nu omdat het de meest gestructureerde poging is om de vorm van RAG-falen in de financiële sector in kaart te brengen voordat we proberen betrouwbare Beancount-grootboekagents bovenop RAG-pipelines te bouwen.

Het artikel

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval construeert een tweedimensionaal evaluatierooster: vijf taakklassen (extractieve QA, multi-hop redeneren, contrast-QA, long-form QA en conversationele QA) gekruist met 16 financiële onderwerpen (aandelenmarkten, investment banking, fondsen, schadeverzekeringen en andere). Het resultaat is een gestructureerde benchmark met 11,4k automatisch gegenereerde testvoorbeelden, 1,7k door mensen geannoteerde voorbeelden en een corpus voor het ophalen van 362k documenten, samengesteld uit zes Chinese financiële gegevensbronnen (BSCF-DB met 193k documenten, FinGLM met 55k, BAAI-Fin met 48k, officiële web-crawls, PDF's en financiële inhoud van Wikipedia). De benchmark bevat ook een fijnmazige LLM-evaluator — Qwen2.5-7B-Instruct getraind op 910 door mensen gelabelde instanties — die de kwaliteit van de generatie scoort op nauwkeurigheid, hallucinatie, volledigheid, benutting en numerieke nauwkeurigheid. Het artikel werd gepubliceerd tijdens EMNLP 2025.

Belangrijke ideeën

  • De automatisch gegenereerde testcases slaagden voor een menselijke acceptatiecontrole met 87,47%, wat betekent dat ongeveer 1 op de 8 gegenereerde instanties werd weggegooid — geen verwaarloosbaar foutenpercentage voor een benchmark.
  • De beste retriever (GTE-Qwen2-1.5B) behaalde een MAP van 0,4370 en een MRR van 0,4491 op de automatisch gegenereerde set, wat betekent dat het hoogst gerangschikte tekstfragment minder dan de helft van de tijd correct is, zelfs met de sterkste geteste retriever.
  • De nauwkeurigheid van de generatie (ACC) over alle retriever-LLM-combinaties varieerde van 0,3238 tot 0,4476 — de beste configuratie beantwoordt minder dan de helft van de vragen correct.
  • Numerieke nauwkeurigheid (NAC) is de scherpste bevinding: 0,0659 tot 0,3595. Het beste systeem heeft financiële getallen in ongeveer 36% van de gevallen goed; het slechtste zit bijna op nul.
  • De fijnmazige evaluator bereikte een overeenstemming van 74,4% met menselijke annotatie (κ = 0,6486), wat aanzienlijk beter is dan baselines die alleen met prompting werken (55–71%) — maar nog steeds één op de vier evaluaties niet in overeenstemming laat met het menselijk oordeel.
  • Multi-hop redeneren en conversationele QA waren consequent de moeilijkste taakklassen.

Wat houdt stand — en wat niet

Het ontwerp van de matrix-evaluatie is oprecht nuttig. Vorige financiële benchmarks (FinanceBench, FinQA, DocFinQA) behandelen evaluatie als één enkele as — meestal de nauwkeurigheid van het antwoord — en missen de structurele variatie in hoe RAG faalt. Weten dat een systeem goed scoort op extractieve QA maar slecht op multi-hop redeneren is actiegericht; weten dat het een bepaald algemeen gemiddelde scoort is dat niet. Het OmniEval-rooster maakt die variatie zichtbaar, en de bevinding dat prestaties inconsistent zijn over verschillende onderwerpen is precies het soort resultaat dat beoefenaars moeten zien voordat ze systemen implementeren.

Dat gezegd hebbende, zijn er echte beperkingen waar ik direct over wil zijn. Het corpus is overwegend Chinees: vijf van de zes gegevensbronnen zijn Chinese financiële gegevens (BSCF, FinGLM, BAAI-Fin), en de zesde is de Chinese Wikipedia. Het artikel rapporteert geen resultaten uitgesplitst naar taal — het rapporteert alleen geaggregeerde getallen. Dit maakt elke score in het artikel verdacht als claim over financiële RAG in het algemeen, in tegenstelling tot financiële RAG over Chinese tekst met op Chinees gespecialiseerde retrievers en LLM's (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Engelstalige financiële gebruikers kunnen deze cijfers niet direct gebruiken.

De LLM-evaluator is getraind op 910 gelabelde instanties. Dat is mager. De menselijke overeenstemming van 74,4% bij κ = 0,6486 is verdedigbaar als startpunt, maar betekent dat het evaluatiekader zelf aanzienlijke ruis introduceert. Als de benchmark wordt gebruikt om systemen te vergelijken die slechts enkele procentpunten verschillen, zal de variantie van de evaluator het signaal overstemmen.

De automatische generatiepijplijn — GPT-4 produceert testvragen, mensen filteren bij 87,47% acceptatie — roept ook een vraag op over contaminatie die het artikel niet behandelt: door GPT-4 gegenereerde vragen kunnen de sterke punten van modellen uit de GPT-4-klasse bevoordelen op een manier die oudere of kleinere modellen systematisch benadeelt.

Waarom dit belangrijk is voor financiële AI

De scores voor numerieke nauwkeurigheid zijn de getallen waar ik steeds naar terugkeer: 0,0659–0,3595. Als het best geteste RAG-systeem financiële getallen slechts 36% van de tijd goed krijgt in een gebenchmarkte evaluatie, dan zal elke Beancount-write-back-agent die bovenop een naïeve RAG-pijplijn is gebouwd, de grootboekgegevens corrumperen. Het formaat van Beancount is onvergeeflijk — een onjuist bedrag, datum of accountnaam produceert ofwel een parse-fout of een stille boekhoudfout die zich over boekjaren kan voortplanten. Deze benchmark geeft ons concreet bewijs dat RAG-retrieval en LLM-generatie nog niet betrouwbaar genoeg zijn voor directe schrijfacties naar het grootboek zonder een validatielaag.

De taakklasse-structuur sluit ook nauw aan op Beancount-use-cases. Extractieve QA komt overeen met eenvoudige balanscontroles. Multi-hop redeneren komt overeen met vragen als "wat is mijn netto-inkomen na belasting over Q1–Q3?". Conversationele QA komt overeen met een gebruiker die iteratief een reconciliatieverzoek verfijnt gedurende een sessie. De bevinding van OmniEval dat multi-hop- en conversationele taken het moeilijkst zijn, is precies het slechte nieuws voor het ontwerp van de Beancount-agent: de eenvoudige gevallen zijn bijna in orde; de realistische gevallen zijn waar het systeem uit elkaar valt.

Wat nu te lezen

  • ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — de dichtstbijzijnde analoog in het algemene domein voor de fijnafstemmingsmethode van de OmniEval-evaluator; het vergelijken van de ARES-methodologie met die van OmniEval zou verduidelijken of de ontwerpkeuzes van de LLM-evaluator principieel of ad-hoc zijn.
  • RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — geautomatiseerde scenariogeneratie voor RAG-evaluatie; breidt de methode voor automatische generatie uit die OmniEval gebruikt en kan de bezorgdheid over contaminatie aanpakken.
  • FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — breidt RAG-evaluatie uit naar multimodale financiële documenten (tabellen, grafieken); relevant omdat Beancount-gebruikers steeds vaker afbeeldingen van bonnen en PDF-afschriften hebben naast hun grootboeken in platte tekst.