FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer
La IA financera ha estat dominada pel RAG només de text, però els documents financers reals estan plens de gràfics, taules i figures que l'OCR no pot capturar completament. FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per avaluar el RAG multimodal amb citacions visuals en l'àmbit financer, i els seus resultats són un recordatori punyent de fins on han d'arribar encara els sistemes de producció.
L'article
Zhao, Jin, Li i Gao de la Universitat de Pequín presenten FinRAGBench-V, un banc de proves bilingüe construït a partir de documents financers reals: informes de recerca, estats financers, prospectes, articles acadèmics, revistes i articles de notícies. El corpus de recuperació és substancial —60.780 pàgines en xinès i 51.219 pàgines en anglès en aproximadament 1.100 documents per idioma— combinat amb 1.394 parells de preguntes i respostes anotats per humans que abasten set categories de preguntes: inferència de text, extracció de gràfics i taules, càlcul numèric, consultes sensibles al temps i raonament multipàgina. Més enllà del conjunt de dades, la contribució central de l'article és RGenCite, un sistema base que genera respostes juntament amb citacions visuals a nivell de píxel en forma de coordenades de caixes delimitadores que marquen les regions específiques del document que donen suport a cada afirmació.
Idees clau
- La recuperació multimodal domina la de només text per un marge aclaparador: ColQwen2, un recuperador de visió i llenguatge basat en incrustacions d'imatges de pàgina, aconsegueix un Recall@10 del 90,13% (xinès) i del 85,86% (anglès). Els millors recuperadors basats en text, BM25 i BGE-M3, es queden al voltant del 42,71%. Aquesta bretxa no és un error d'arrodoniment.
- La precisió de generació és baixa fins i tot per als models més avançats: GPT-4o en anglès assoleix un 43,41% de precisió (ROUGE 24,66); o4-mini en xinès arriba al 58,13% (ROUGE 38,55). Aquests són models propietaris de primer nivell amb una recuperació sòlida ja implementada.
- La citació a nivell de pàgina funciona; a nivell de bloc, no: La recuperació a nivell de pàgina se situa entre el 75–93% per als millors models. La recuperació a nivell de bloc —saber quina cel·la específica de la taula o quina regió del gràfic fonamenta una afirmació— cau al 20–61%. Aquesta és la bretxa clau per a l'audibilitat.
- El raonament numèric i la inferència multipàgina són el primer que fa fallar els models: Les preguntes que requereixen càlculs a través de pàgines o períodes temporals són on la precisió cau més bruscament en tots els sistemes provats.
- Els models propietaris superen substancialment les alternatives de codi obert: La bretxa entre l'API tancada i el codi obert és més gran aquí que en la majoria dels bancs de proves de PNL, cosa que suggereix que el raonament financer visual continua sent un repte no resolt per als models oberts.
- L'autoavaluació de les citacions és imperfecta: L'avaluador de citacions mitjançant retall d'imatges aconsegueix una r de Pearson = 0,68 amb els judicis humans, cosa que és raonable però no prou fiable com per confiar-hi plenament sense un mostreig.
Què se sosté — i què no
La troballa sobre la recuperació és el resultat més creïble de l'article. Una bretxa de gairebé 50 punts percentuals entre els recuperadors multimodals i els de només text en més de 60.000 pàgines és massa gran per ser ignorada. Quan s'aplica l'OCR a un document financer abans d'indexar-lo, es destrueixen els senyals de disseny estructural —en quina columna apareix un número, si el títol d'una figura modifica la interpretació d'una taula— que resulten ser enormement importants per a la recuperació.
Les xifres de generació són honestes però difícils d'interpretar de manera aïllada. Els autors no desglossen quina part de la bretxa de precisió s'atribueix a errors de recuperació enfront de fallades de generació. Atès que el Recall@10 ja és del 85,86% per a l'anglès, una fracció significativa de les fallades ha de ser del costat de la generació i no de la recuperació. Conèixer aquest desglossament aclariria si el coll d'ampolla és el raonament multimodal o quelcom més fonamental sobre com els MLLM gestionen el llenguatge financer.
El conjunt d'avaluació de 1.394 parells de preguntes i respostes és petit per a l'abast del banc de proves. Dividit en set categories i dos idiomes, alguns segments tenen molt menys de 200 exemples. La significació estadística de les troballes a nivell de categoria queda implícita. Això no és inusual per a un article de refer ència, però sí que significa que seria fàcil construir comparacions esbiaixades.
El protocol d'avaluació de citacions és una contribució interessant, però una r de Pearson = 0,68 amb les valoracions humanes no és prou forta com per tractar l'autoavaluació com una veritat absoluta per a la fonamentació a nivell de bloc. Els autors ho reconeixen; el treball futur sobre millors mètriques de citació està marcat explícitament.
Per què això és important per a la IA financera
Beancount opera sobre fitxers de llibre major en text pla, la qual cosa fa que el RAG només de text sigui defensable per consultar transaccions passades. Però la tasca comptable més àmplia implica documents que rotundament no són text pla: PDF d'extractes bancaris, factures escanejades, imatges de tiquets, informes anuals amb taules i gràfics incrustats. En el moment en què un agent de Beancount necessita conciliar una entrada del llibre major amb un document font —verificar que un càrrec determinat coincideix amb la factura arxivada—, està fent exactament la tasca que FinRAGBench-V avalua.
La troballa de la citació a nivell de bloc és el que més importa per a aquest cas d'ús. Si un agent ha de justificar una entrada del llibre major assenyalant un element de línia específic en un PDF, i el millor sistema disponible només aconsegueix una recuperació a nivell de bloc del 20–61%, això no està preparat per a una auditoria. Qualsevol flux de treball de Beancount que toqui documents font escanejats necessita una revisió humana fins que aquesta xifra millori substancialment.
La bretxa en la modalitat de recuperació també argumenta fortament contra els fluxos de treball de text pur per a la ingesta de documents. Una imatge de tiquet conté informació de disseny —camps d'import, noms de proveïdors, posicions d'elements de línia— que l'OCR destrueix. Aquesta informació de disseny és precisament el que distingeix el total d'una línia de l'import d'un impost, i FinRAGBench-V demostra que els recuperadors multimodals l'aprofiten de maneres que els recuperadors de text no poden.
Què llegir a continuació
- ColPali: Efficient Document Retrieval with Vision Language Models — el predecessor de ColQwen2 que va establir l'enfocament d'incrustació visual de pàgines sobre el qual es construeix el millor recuperador de FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — aborda el QA visual multidispositiu amb un marc flexible que gestiona el raonament visual d'un i de diversos salts entre pàgines [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — un banc de proves complementari del 2025 que avalua la sensibilitat temporal en el RAG financer multimodal, directament complementari a la categoria de preguntes sensibles al temps de FinRAGBench-V [arXiv:2503.05185]
