OmniEval: Benchmark de evaluación RAG omnidireccional para el dominio financiero
La mayoría de los benchmarks RAG en finanzas preguntan si un sistema puede recuperar y responder, y punto. OmniEval (EMNLP 2025, arXiv:2412.13018) de Shuting Wang et al. en RUC plantea una pregunta más difícil: ¿se mantiene el rendimiento en toda la matriz de tipos de tareas y temas financieros? Lo estoy leyendo ahora porque es el intento más estructurado de mapear la forma de los fallos de RAG en finanzas antes de intentar construir agentes de libros contables Beancount confiables sobre flujos de RAG.
El artículo
OmniEval construye una cuadrícula de evaluación bidimensional: cinco clases de tareas (QA extractiva, razonamiento de múltiples saltos, QA de contraste, QA de formato largo y QA conversacional) cruzadas con 16 temas financieros (mercados de valores, banca de inversión, fondos, seguros de propiedad y otros). El resultado es un benchmark estructurado con 11,4k ejemplos de prueba generados automáticamente, 1,7k ejemplos anotados por humanos y un corpus de recuperación de 362k documentos ensamblado a partir de seis fuentes de datos financieros chinos (BSCF-DB con 193k documentos, FinGLM con 55k, BAAI-Fin con 48k, rastreos web oficiales, PDFs y contenido financiero de Wikipedia). El benchmark también incluye un evaluador LLM ajustado —Qwen2.5-7B-Instruct entrenado en 910 instancias etiquetadas por humanos— que califica la calidad de la generación en términos de precisión, alucinación, integridad, utilización y precisión numérica. El artículo fue publicado en EMNLP 2025.
Ideas clave
- Los casos de prueba autogenerados pasaron una verificación de aceptación humana del 87,47%, lo que significa que aproximadamente 1 de cada 8 instancias generadas fue descartada, una tasa de ruido no despreciable para un benchmark.
- El mejor recuperador (GTE-Qwen2-1.5B) logró un MAP de 0,4370 y un MRR de 0,4491 en el conjunto autogenerado, lo que significa que el pasaje mejor clasificado es correcto menos de la mitad de las veces, incluso con el recuperador más fuerte probado.
- La precisión de generación (ACC) en todas las combinaciones de recuperador-LLM osciló entre 0,3238 y 0,4476; la mejor configuración acierta menos de la mitad de las preguntas.
- La precisión numérica (NAC) es el hallazgo más contundente: de 0,0659 a 0,3595. El mejor sistema acierta los números financieros aproximadamente el 36% de las veces; el peor está cerca de cero.
- El evaluador ajustado alcanzó un 74,4% de acuerdo con la anotación humana (κ = 0,6486), superando sustancialmente a las líneas base de solo prompting (55–71%), pero dejando aún una de cada cuatro evaluaciones desalineada con el juicio humano.
- El razonamiento de múltiples saltos y la QA conversacional fueron consistentemente las clases de tareas más difíciles.
Qué se sostiene y qué no
El diseño de evaluación matricial es realmente útil. Los benchmarks financieros anteriores (FinanceBench, FinQA, DocFinQA) tratan la evaluación como un eje único —generalmente la precisión de la respuesta— y pierden la variación estructural en cómo falla RAG. Saber que un sistema puntúa bien en QA extractiva pero mal en razonamiento de múltiples saltos es procesable; saber que promedia alguna puntuación general no lo es. La cuadrícula de OmniEval hace visible esa variación, y el hallazgo de que el rendimiento es inconsistente entre temas es exactamente el tipo de resultado que los profesionales necesitan ver antes del despliegue.
Dicho esto, hay límites reales sobre los que quiero ser directo. El corpus es mayoritariamente chino: cinco de las seis fuentes de datos son datos financieros chinos (BSCF, FinGLM, BAAI-Fin), y la sexta es Wikipedia en chino. El artículo no informa resultados desglosados por idioma; solo informa números agregados. Esto hace que cada puntuación en el artículo sea sospechosa como una afirmación sobre RAG financiero en general, en oposición a RAG financiero sobre texto chino con recuperadores y LLMs especializados en chino (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Los usuarios financieros en inglés no pueden usar estos números directamente.
El evaluador LLM está entrenado en 910 instancias etiquetadas. Eso es poco. El acuerdo humano del 74,4% con κ = 0,6486 es defendible como punto de partida, pero significa que el propio marco de evaluación introduce un ruido sustancial. Si el benchmark se utiliza para comparar sistemas que difieren en unos pocos puntos porcentuales, la varianza del evaluador inundará la señal.
El pipeline de generación automática —GPT-4 produce las preguntas de prueba, los humanos filtran con una aceptación del 87,47%— también plantea una cuestión de contaminación que el artículo no aborda: las preguntas generadas por GPT-4 pueden favorecer las fortalezas de los modelos de clase GPT-4 de formas que perjudiquen sistemáticamente a los modelos más antiguos o pequeños.
Por qué esto importa para la IA en finanzas
Las puntuaciones de precisión numérica son la cifra a la que sigo volviendo: 0,0659–0,3595. Si el mejor sistema RAG probado acierta los números financieros solo el 36% de las veces en una evaluación comparativa, cualquier agente de escritura de Beancount construido sobre un flujo RAG ingenuo va a corromper los datos del libro contable. El formato de Beancount es implacable: un monto, fecha o nombre de cuenta incorrecto produce un error de análisis o un error contable silencioso que puede propagarse a través de los años fiscales. Este benchmark nos da evidencia concreta de que la recuperación RAG y la generación LLM aún no son lo suficientemente confiables para la escritura directa en libros contables sin una capa de validación.
La estructura de clases de tareas también se mapea claramente a los casos de uso de Beancount. La QA extractiva corresponde a consultas simples de saldo. El razonamiento de múltiples saltos corresponde a preguntas como "¿cuál es mi ingreso neto después de impuestos entre el Q1 y el Q3?". La QA conversacional corresponde a un usuario que refina iterativamente una solicitud de conciliación a lo largo de una sesión. El hallazgo de OmniEval de que las tareas de múltiples saltos y conversacionales son las más difíciles es exactamente la mala noticia para el diseño del agente Beancount: los casos fáciles están casi bien; los casos realistas son donde el sistema se desmorona.
Qué leer a continuación
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — el análogo de dominio general más cercano al enfoque de ajuste del evaluador de OmniEval; comparar la metodología de ARES con la de OmniEval aclararía si las opciones de diseño del evaluador LLM son fundamentadas o ad hoc.
- RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — generación automatizada de escenarios para la evaluación RAG; extiende la metodología de autogeneración que utiliza OmniEval y puede abordar la preocupación por la contaminación.
- FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — extiende la evaluación RAG a documentos financieros multimodales (tablas, gráficos); relevante a medida que los usuarios de Beancount tienen cada vez más imágenes de recibos y estados de cuenta en PDF junto con libros contables de texto plano.
