FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti
Finančná AI bola doteraz ovládaná čisto textovým RAG, ale skutočné finančné dokumenty sú plné grafov, tabuliek a schém, ktoré OCR nedokáže úplne zachytiť. FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark na vyhodnotenie multimodálneho RAG s vizuálnymi citáciami vo finančnej oblasti a jeho výsledky sú triezvou pripomienkou toho, ako ďaleko majú produkčné systémy ešte pred sebou.
Článok
Zhao, Jin, Li a Gao z Pekinskej univerzity predstavujú FinRAGBench-V, bilingválny benchmark vytvorený zo skutočných finančných dokumentov: výskumných správ, účtovných závierok, prospektov, akademických prác, časopisov a novinových článkov. Korpus na vyhľadávanie je značný – 60 780 čínskych strán a 51 219 anglických strán v približne 1 100 dokumentoch na jazyk – spárovaný s 1 394 manuálne anotovanými pármi QA (otázka-odpoveď) pokrývajúcimi sedem kategórií otázok: textová inferencia, extrakcia z grafov a tabuliek, numerické výpočty, časovo citlivé dopyty a viacstranové uvažovanie. Okrem datasetu je hlavným prínosom článku RGenCite, základný (baseline) systém, ktorý generuje odpovede spolu s vizuálnymi citáciami na úrovni pixelov vo forme súradníc ohraničujúcich boxov (bounding boxes) označujúcich konkrétne oblasti dokumentu, ktoré podporujú každé tvrdenie.
Kľúčové myšlienky
- Multimodálne vyhľadávanie dominuje nad čisto textovým s drvivým náskokom: ColQwen2, vizuálno-jazykový vyhľadávač postavený na embeddingoch obrázkov stránok, dosahuje Recall@10 90,13 % (čínština) a 85,86 % (angličtina). Najlepšie textové vyhľadávače, BM25 a BGE-M3, dosahujú maximálne okolo 42,71 %. Tento rozdiel nie je len štatistickou chybou.
- Presnosť generovania je nízka aj pri špičkových modeloch: GPT-4o v angličtine dosahuje presnosť 43,41 % (ROUGE 24,66); o4-mini v čínštine dosahuje 58,13 % (ROUGE 38,55). Ide o špičkové proprietárne modely so silným nastavením vyhľadávania.
- Citácie na úrovni stránky fungujú; na úrovni blokov nie: Úspešnosť vyhľadávania (recall) na úrovni stránky sa pri najlepších modeloch pohybuje v rozmedzí 75 – 93 %. Recall na úrovni blokov – teda vedieť, ktorá konkrétna bunka tabuľky alebo oblasť grafu podkladá tvrdenie – klesá na 20 – 61 %. To je kľúčová medzera pre auditovateľnosť.
- Numerické uvažovanie a viacstranová inferencia lámu modely ako prvé: Otázky vyžadujúce výpočty naprieč stránkami alebo časovými obdobiami sú tie, kde presnosť klesá najprudšie vo všetkých testovaných systémoch.
- Proprietárne modely výrazne prekonávajú open-source alternatívy: Rozdiel medzi uzavretými API a open-source riešeniami je tu väčší ako vo väčšine NLP benchmarkov, čo naznačuje, že vizuálne finančné uvažovanie zostáva pre otvorené modely nevyriešené.
- Automatické vyhodnocovanie citácií je nedokonalé: Evaluátor citácií založený na orezávaní obrázkov dosahuje Pearsonovo r = 0,68 v porovnaní s ľudským hodnotením – je to primerané, ale nie dostatočne spoľahlivé na to, aby sa mu dalo plne dôverovať bez dodatočnej kontroly.
Čo obstojí — a čo nie
Zistenie o vyhľadávaní je najdôveryhodnejším výsledkom článku. Rozdiel takmer 50 percentuálnych bodov medzi multimodálnymi a čisto textovými vyhľadávačmi pri viac ako 60 tisícoch strán je príliš veľký na to, aby sa dal ignorovať. Keď pred indexovaním finančného dokumentu použijete OCR, zničíte signály o štrukturálnom rozložení – v ktorom stĺpci sa číslo nachádza, či popis obrázka upravuje interpretáciu tabuľky – čo sa ukazuje ako nesmierne dôležité pre vyhľadávanie.
Čísla týkajúce sa generovania sú úprimné, ale v izolácii sa ťažko interpretujú. Autori nerozoberajú, aká časť medzery v presnosti je pripísateľná chybám vyhľadávania oproti zlyhaniam generovania. Vzhľadom na to, že Recall@10 je pre angličtinu už 85,86 %, významná časť zlyhaní musí byť na strane generovania, nie vyhľadávania. Poznanie tohto rozdelenia by objasnilo, či je úzkym hrdlom multimodálne uvažovanie alebo niečo zásadnejšie v tom, ako MLLM pracujú s finančným jazykom.
Evaluačný súbor 1 394 párov QA je na rozsah benchmarku malý. Rozdelené do siedmich kategórií a dvoch jazykov majú niektoré časti menej ako 200 príkladov. Štatistická významnosť zistení na úrovni kategórií zostáva implicitná. Pre článok o benchmarku to nie je nezvyčajné, ale znamená to, že by bolo ľahké vytvoriť účelovo vybrané (cherry-picked) porovnania.
Protokol na vyhodnocovanie citácií je zaujímavým prínosom, ale Pearsonovo r = 0,68 v porovnaní s ľudským hodnotením nie je dostatočne silné na to, aby sa automatické vyhodnocovanie považovalo za absolútnu pravdu pre ukotvenie na úrovni blokov. Autori to priznávajú; budúca práca na lepších metrikách citácií je výslovne označená za potrebnú.
Prečo je to dôležité pre finančnú AI
Beancount funguje nad čisto textovými súbormi účtovných denníkov (ledgers), vďaka čomu je čisto textový RAG obhájiteľný pri dopytovaní sa na minulé transakcie. Širšia účtovná úloha však zahŕňa dokumenty, ktoré rozhodne nie sú čisto textové: bankové výpisy v PDF, skenované faktúry, obrázky účteniek, výročné správy s vloženými tabuľkami a grafmi. Vo chvíli, keď agent Beancount potrebuje odsúhlasiť (reconcile) záznam v denníku so zdrojovým dokumentom – overiť, či konkrétna platba súhlasí s faktúrou v evidencii – vykonáva presne tú istú úlohu, ktorú testuje FinRAGBench-V.
Zistenie o citáciách na úrovni blokov je pre tento prípad použitia najdôležitejšie. Ak musí agent odôvodniť záznam v účtovnej knihe ukázaním na konkrétnu riadkovú položku v PDF a najlepší dostupný systém dosahuje len 20 – 61 % recallu na úrovni blokov, nie je to pripravené na audit. Akýkoľvek proces v Beancount, ktorý pracuje s naskenovanými zdrojovými dokumentmi, potrebuje kontrolu človekom, kým sa toto číslo výrazne nezlepší.
Rozdiel v modalite vyhľadávania tiež silne hovorí proti čisto textovým procesom pri spracovaní dokumentov. Obrázok účtenky nesie informácie o rozložení – polia s čiastkami, názvy dodávateľov, pozície riadkových položiek – ktoré OCR zničí. Práve tieto informácie o rozložení odlišujú celkovú sumu od sumy dane a FinRAGBench-V ukazuje, že multimodálne vyhľadávače ich využívajú spôsobom, ktorý textové vyhľadávače nedokážu.
Čo si prečítať ďalej
- ColPali: Efficient Document Retrieval with Vision Language Models — predchodca modelu ColQwen2, na ktorom je postavený vizuálny prístup embeddingov stránok najlepšieho vyhľadávača v FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — rieši vizuálne QA nad viacerými dokumentmi pomocou flexibilného rámca, ktorý zvláda jedno- aj viacúrovňové vizuálne uvažovanie naprieč stránkami [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — sprievodný benchmark z roku 2025 hodnotiaci časovú citlivosť vo finančnom multimodálnom RAG, ktorý priamo dopĺňa kategóriu časovo citlivých otázok vo FinRAGBench-V [arXiv:2503.05185]
