OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti
Väčšina benchmarkov RAG vo financiách sa pýta, či systém dokáže vyhľadať a odpovedať – bodka. OmniEval (EMNLP 2025, arXiv:2412.13018) od Shuting Wang a kol. z RUC kladie ťažšiu otázku: udrží sa výkon v rámci celej matice typov úloh a finančných tém? Čítam to práve teraz, pretože je to najštruktúrovanejší pokus o zmapovanie zlyhaní RAG vo financiách predtým, než sa pokúsime vybudovať spoľahlivých agentov pre účtovné knihy Beancount nad RAG procesmi.
Odborná práca
OmniEval konštruuje dvojrozmernú hodnotiacu mriežku: päť tried úloh (extrakčné QA, viackrokové uvažovanie, kontrastné QA, dlhé QA a konverzačné QA) skrížených so 16 finančnými témami (akciové trhy, investičné bankovníctvo, fondy, poistenie majetku a iné). Výsledkom je štruktúrovaný benchmark s 11,4 tisíc automaticky generovanými testovacími príkladmi, 1,7 tisíc manuálne anotovanými príkladmi a korpusom na vyhľadávanie s 362 tisíc dokumentmi zostaveným zo šiestich čínskych finančných zdrojov údajov (BSCF-DB s 193 tisíc dokumentmi, FinGLM s 55 tisíc, BAAI-Fin s 48 tisíc, oficiálne webové extrakcie, PDF a finančný obsah z Wikipédie). Benchmark zahŕňa aj doladený LLM evaluátor – Qwen2.5-7B-Instruct trénovaný na 910 manuálne označených inštanciách – ktorý hodnotí kvalitu generovania v oblastiach presnosti, halucinácií, úplnosti, využitia a numerickej presnosti. Práca bola publikovaná na EMNLP 2025.
Kľúčové myšlienky
- Automaticky generované testovacie prípady prešli kontrolou ľudskej akceptácie na 87,47 %, čo znamená, že približne 1 z 8 generovaných inštancií bola zahodená – čo nie je zanedbateľná miera šumu pre benchmark.
- Najlepší vyhľadávač (GTE-Qwen2-1.5B) dosiahol MAP 0,4370 a MRR 0,4491 na automaticky generovanej sade, čo znamená, že najvyššie umiestnená pasáž je správna v menej ako polovici prípadov, a to aj s najsilnejším testovaným vyhľadávačom.
- Presnosť generovania (ACC) naprieč všetkými kombináciami vyhľadávač-LLM sa pohybovala od 0,3238 do 0,4476 – najlepšia konfigurácia odpovedá správne na menej ako polovicu otázok.
- Numerická presnosť (NAC) je najvýraznejším zistením: 0,0659 až 0,3595. Najlepší systém trafí finančné čísla správne v približne 36 % prípadov; najhorší je blízko nuly.
- Doladený evaluátor dosiahol 74,4 % zhodu s ľudskou anotáciou (κ = 0,6486), čím výrazne prekonal základné modely založené len na promptovaní (55 – 71 %) – no stále ponecháva jedno zo štyroch hodnotení v nesúlade s ľudským úsudkom.
- Viackrokové uvažovanie a konverzačné QA boli konzistentne najťažšími triedami úloh.
Čo obstojí — a čo nie
Návrh maticového hodnotenia je skutočne užitočný. Predchádzajúce finančné benchmarky (FinanceBench, FinQA, DocFinQA) pristupuj ú k hodnoteniu ako k jednej osi – zvyčajne presnosti odpovedí – a prehliadajú štrukturálne variácie v tom, ako RAG zlyháva. Vedieť, že systém dosahuje dobré výsledky v extrakčnom QA, ale slabé vo viackrokovom uvažovaní, je využiteľná informácia; vedieť, že má nejaké priemerné celkové skóre, nie je. Mriežka OmniEval zviditeľňuje tieto variácie a zistenie, že výkon je nekonzistentný naprieč témami, je presne ten druh výsledku, ktorý odborníci potrebujú vidieť pred nasadením.
To znamená, že existujú skutočné obmedzenia, o ktorých chcem hovoriť priamo. Korpus je prevažne čínsky: päť zo šiestich zdrojov údajov sú čínske finančné dáta (BSCF, FinGLM, BAAI-Fin) a šiestym je čínska Wikipédia. Práca neuvádza výsledky rozdelené podľa jazyka – uvádza len súhrnné čísla. To robí každé skóre v práci podozrivým ako tvrdenie o finančnom RAG všeobecne, na rozdiel od finančného RAG nad čínskym textom s čínsky špecializovanými vyhľadávačmi a LLM (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Anglickí finanční používatelia nemôžu tieto čísla priamo použiť.
LLM evaluátor je trénovaný na 910 označených inštanciách. To je málo. Zhoda s ľuďmi 74,4 % pri κ = 0,6486 je obhájiteľná ako východiskový bod, ale znamená to, že samotný hodnotiaci rámec vnáša značný šum. Ak sa benchmark používa na porovnanie systémov, ktoré sa líšia o niekoľko percentuálnych bodov, rozptyl evaluátora prekryje signál.
Automatický proces generovania – kde GPT-4 vytvára testovacie otázky a ľudia ich filtrujú s 87,47 % úspešnosťou – tiež vyvoláva otázku kontaminácie, ktorou sa práca nezaoberá: otázky generované GPT-4 môžu nahrávať modelom triedy GPT-4 spôsobom, ktorý systematicky znevýhodňuje staršie alebo menšie modely.
Prečo je to dôležité pre AI vo financiách
Čísla numerickej presnosti sú údajom, ku ktorému sa stále vraciam: 0,0659 – 0,3595. Ak najlepší testovaný systém RAG trafí finančné čísla správne len v 36 % prípadov v benchmarkovom hodnotení, akýkoľvek agent na zápis do Beancountu postavený na naivnom RAG procese poškodí údaje v účtovnej knihe. Formát Beancount je neúprosný – nesprávna suma, dátum alebo názov účtu spôsobí buď chybu spracovania, alebo tichú účtovnú chybu, ktorá sa môže šíriť naprieč fiškálnymi rokmi. Tento benchmark nám dáva konkrétny dôkaz, že vyhľadávanie RAG a generovanie LLM ešte nie sú dostatočne spoľahlivé na priamy zápis do účtovnej knihy bez validačnej vrstvy.
Štruktúra tried úloh sa tiež čisto mapuje na prípady použitia Beancountu. Extrakčné QA zodpovedá jednoduchému zisťovaniu zostatkov. Viackrokové uvažovanie zodpovedá otázkam typu „aký je môj čistý príjem po zdanení za Q1 – Q3?“. Konverzačné QA zodpovedá používateľovi, ktorý iteratívne upresňuje požiadavku na párovanie platieb počas relácie. Zistenie OmniEval, že viackrokové a konverzačné úlohy sú najťažšie, je presne tá zlá správa pre návrh agenta Beancount: jednoduché prípady sú takmer v poriadku; realistické prípady sú tie, kde sa systém rozpadá.
Čo si prečítať ďalej
- ARES: Automatizovaný hodnotiaci rámec pre generovanie rozšírené o vyhľadávanie (arXiv:2311.09476, NAACL 2025) – najbližšia všeobecná obdoba k prístupu doladenia evaluátora v OmniEval; porovnanie metodiky ARES s OmniEval by objasnilo, či sú rozhodnutia o návrhu LLM evaluátora principiálne alebo ad hoc.
- RAGEval: Rámec na generovanie dátových sád pre hodnotenie RAG špecifické pre daný scenár (ACL 2025, aclanthology.org/2025.acl-long.418) – automatizované generovanie scenárov pre hodnotenie RAG; rozširuje metodiku automatického generovania, ktorú používa OmniEval, a môže riešiť obavy z kontaminácie.
- FinRAGBench-V: Benchmark pre multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti (arXiv:2505.17471) – rozširuje hodnotenie RAG na multimodálne finančné dokumenty (tabuľky, grafy); relevantné, pretože používatelia Beancountu majú čoraz častejšie obrázky účteniek a PDF výpisy popri textových účtovných knihách.
