Ir al contenido principal

FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La IA financiera ha estado dominada por el RAG de solo texto, pero los documentos financieros reales están llenos de gráficos, tablas y figuras que el OCR no puede capturar por completo. FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para evaluar el RAG multimodal con citas visuales en el dominio financiero, y sus resultados son un recordatorio aleccionador de lo lejos que aún deben llegar los sistemas de producción.

El artículo

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

Zhao, Jin, Li y Gao de la Universidad de Pekín presentan FinRAGBench-V, un benchmark bilingüe construido a partir de documentos financieros reales: informes de investigación, estados financieros, folletos, artículos académicos, revistas y artículos de noticias. El corpus de recuperación es sustancial (60,780 páginas en chino y 51,219 páginas en inglés en aproximadamente 1,100 documentos por idioma), emparejado con 1,394 pares de preguntas y respuestas anotados por humanos que abarcan siete categorías de preguntas: inferencia de texto, extracción de gráficos y tablas, cálculo numérico, consultas sensibles al tiempo y razonamiento de múltiples páginas. Más allá del conjunto de datos, la contribución central del artículo es RGenCite, un sistema base que genera respuestas junto con citas visuales a nivel de píxel en forma de coordenadas de cuadros delimitadores (bounding boxes) que marcan las regiones específicas del documento que respaldan cada afirmación.

Ideas clave

  • La recuperación multimodal domina a la de solo texto por un margen abrumador: ColQwen2, un recuperador de lenguaje visual basado en incrustaciones de imágenes de páginas, logra un Recall@10 del 90.13% (chino) y 85.86% (inglés). Los mejores recuperadores basados en texto, BM25 y BGE-M3, alcanzan un máximo de alrededor del 42.71%. Esta brecha no es un error de redondeo.
  • La precisión de generación es baja incluso para modelos de vanguardia: GPT-4o en inglés alcanza un 43.41% de precisión (ROUGE 24.66); o4-mini en chino alcanza el 58.13% (ROUGE 38.55). Estos son modelos propietarios de primer nivel con una sólida recuperación implementada.
  • Las citas a nivel de página funcionan; las de nivel de bloque no: El recall a nivel de página se sitúa entre el 75 y el 93% para los mejores modelos. El recall a nivel de bloque (saber qué celda específica de una tabla o región de un gráfico fundamenta una afirmación) cae al 20–61%. Esta es la brecha clave para la auditabilidad.
  • El razonamiento numérico y la inferencia de múltiples páginas son lo primero que hace fallar a los modelos: Las preguntas que requieren cálculos a través de páginas o períodos temporales es donde la precisión cae más abruptamente en todos los sistemas probados.
  • Los modelos propietarios superan sustancialmente a las alternativas de código abierto: La brecha entre las API cerradas y el código abierto es mayor aquí que en la mayoría de los benchmarks de NLP, lo que sugiere que el razonamiento financiero visual sigue siendo un problema sin resolver para los modelos abiertos.
  • La autoevaluación para las citas es imperfecta: El evaluador de citas basado en el recorte de imágenes logra un r de Pearson = 0.68 con los juicios humanos; razonable, pero no lo suficientemente confiable como para confiar plenamente sin muestreo.

Qué se sostiene — y qué no

El hallazgo sobre la recuperación es el resultado más creíble del artículo. Una brecha de casi 50 puntos porcentuales entre los recuperadores multimodales y los de solo texto en más de 60,000 páginas es demasiado grande para ignorarla. Cuando se aplica OCR a un documento financiero antes de indexarlo, se destruyen las señales de diseño estructural (en qué columna aparece un número, si el pie de una figura modifica la interpretación de una tabla) que resultan ser enormemente importantes para la recuperación.

Las cifras de generación son honestas pero difíciles de interpretar de forma aislada. Los autores no analizan qué parte de la brecha de precisión se atribuye a errores de recuperación versus fallos de generación. Dado que el Recall@10 ya es del 85.86% para el inglés, una fracción significativa de los fallos debe ser del lado de la generación más que de la recuperación. Conocer ese desglose aclararía si el cuello de botella es el razonamiento multimodal o algo más fundamental sobre cómo los MLLM manejan el lenguaje financiero.

El conjunto de evaluación de 1,394 pares de preguntas y respuestas es pequeño para el alcance del benchmark. Dividido en siete categorías y dos idiomas, algunos segmentos tienen menos de 200 ejemplos. La significancia estadística de los hallazgos a nivel de categoría queda implícita. Esto no es inusual para un artículo de benchmark, pero significa que sería fácil construir comparaciones sesgadas.

El protocolo de evaluación de citas es una contribución interesante, pero un r de Pearson = 0.68 con las calificaciones humanas no es lo suficientemente fuerte como para tratar la autoevaluación como la verdad absoluta para la fundamentación a nivel de bloque. Los autores lo reconocen; el trabajo futuro sobre mejores métricas de citas se señala explícitamente.

Por qué esto importa para la IA en finanzas

Beancount opera sobre archivos de libro mayor en texto plano, lo que hace que el RAG de solo texto sea defendible para consultar transacciones pasadas. Pero la tarea contable más amplia involucra documentos que enfáticamente no son de texto plano: PDFs de extractos bancarios, facturas escaneadas, imágenes de recibos, informes anuales con tablas y gráficos incrustados. En el momento en que un agente de Beancount necesita conciliar una entrada del libro mayor con un documento fuente (verificar que un cargo particular coincida con la factura en archivo), está realizando exactamente la tarea que FinRAGBench-V evalúa.

El hallazgo sobre las citas a nivel de bloque es lo que más importa para este caso de uso. Si un agente debe justificar una entrada del libro mayor señalando un elemento de línea específico en un PDF, y el mejor sistema disponible logra solo un 20–61% de recall a nivel de bloque, eso no está listo para una auditoría. Cualquier flujo de trabajo de Beancount que toque documentos fuente escaneados necesita una revisión con intervención humana (human-in-the-loop) hasta que esta cifra mejore sustancialmente.

La brecha en la modalidad de recuperación también aboga fuertemente en contra de los flujos de trabajo de solo texto para la ingesta de documentos. Una imagen de un recibo contiene información de diseño (campos de monto, nombres de proveedores, posiciones de los elementos de línea) que el OCR destruye. Esa información de diseño es precisamente lo que distingue un total de línea de un monto de impuestos, y FinRAGBench-V muestra que los recuperadores multimodales la aprovechan de formas que los recuperadores de texto no pueden.

Qué leer a continuación

  • ColPali: Efficient Document Retrieval with Vision Language Models — el predecesor de ColQwen2 que estableció el enfoque de incrustación visual de páginas en el que se basa el mejor recuperador de FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — aborda el QA visual multidocumento con un marco flexible que maneja el razonamiento visual de uno y múltiples saltos a través de las páginas [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance — un benchmark complementario de 2025 que evalúa la sensibilidad temporal en el RAG multimodal financiero, directamente complementario a la categoría de preguntas sensibles al tiempo de FinRAGBench-V [arXiv:2503.05185]