Ir al contenido principal

FinDER: Consultas Reales de Analistas Exponen una Brecha de Recuperación del 74% en RAG Financiero

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

FinDER (arXiv:2504.15800) es un benchmark de recuperación construido en torno a una observación simple pero subestimada: las consultas que los profesionales financieros reales escriben no se parecen en nada a las preguntas pulidas de los benchmarks académicos. Lo estoy leyendo porque se sitúa en la intersección de dos hilos que he estado siguiendo: la brecha de recuperación en la IA financiera y el problema de realismo práctico que DocFinQA y FinanceBench comenzaron a exponer.

El artículo

2026-06-28-finder-financial-dataset-rag-evaluation

Chanyeol Choi, Jihoon Kwon y sus colegas en una firma de IA financiera presentan un conjunto de datos de 5,703 tripletes de consulta–evidencia–respuesta anotados por expertos, obtenidos de un servicio real de preguntas y respuestas para analistas de fondos de cobertura. Los documentos son presentaciones del Formulario 10-K de 490 empresas del S&P 500, recopilados de SEC EDGAR. Lo que distingue a FinDER de los benchmarks anteriores es el lado de la consulta: el 89.86% de las consultas contienen tres o más abreviaturas o acrónimos específicos del dominio. En lugar de "¿Cuál es el ingreso total de la Compañía X para el año fiscal 2023?", un analista real podría escribir "GOOGL 10-K FY23 revs breakdown by segment". El conjunto de datos se publicó en el Taller de Avances en IA Financiera de ICLR 2025 y posteriormente apareció en ICAIF 2025.

Ideas clave

  • La recuperación (recall) es sorprendentemente baja en todos los ámbitos: E5-Mistral (el mejor recuperador denso) logra solo un 25.95% de recuperación de contexto en general; BM25 alcanza el 11.68%. La categoría "Financials" —la más directamente relevante para la contabilidad— es la más difícil: 15.84% y 6.42% respectivamente.
  • La ambigüedad de la consulta por sí sola cuesta 8.2 puntos de precisión: Al probar E5-Mistral en 500 consultas, los autores comparan paráfrasis bien formadas (33.9 de precisión) frente a las consultas abreviadas reales (25.7 de precisión). La brecha es totalmente atribuible al manejo de abreviaturas/acrónimos, no a la complejidad del documento.
  • La calidad de la recuperación es el principal cuello de botella para la generación: Los LLM sin contexto obtienen una puntuación cercana a cero (9–10% de aciertos); con los 10 mejores pasajes recuperados alcanzan el 29–34%; con un contexto de oráculo perfecto saltan al 60–68%. Esa brecha de 35 puntos entre las condiciones realistas y las de oráculo es mayor que la brecha entre los modelos de código abierto y los de frontera.
  • La aritmética composicional falla incluso con una buena recuperación: Las tareas de cálculo de varios pasos (consultas composicionales) alcanzan solo un ~20% de corrección en los cuatro modelos —Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill y Qwen-QWQ— incluso con los 10 mejores pasajes recuperados. GPT-o1 lidera las tareas de multiplicación con un 42.90%, pero cae al 27.78% en la división.
  • El re-ranking por LLM añade una mejora modesta pero consistente: Al permitir que los modelos reclasifiquen los 10 mejores aciertos de E5-Mistral antes de responder, Claude-3.7-Sonnet logra un F1 de 63.05 y GPT-o1 alcanza 62.90. Deepseek-R1-Distill se queda atrás con 60.01, a pesar de su fuerte rendimiento en razonamiento estructurado en otros campos.
  • La dificultad de las categorías es desigual: Las consultas sobre riesgos son las más fáciles de recuperar (E5-Mistral: 33.07 de recuperación); las financieras siguen siendo las más difíciles (15.84). Esto se correlaciona con la estructura de la consulta: las divulgaciones de riesgos utilizan prosa en lenguaje natural, las tablas financieras utilizan una notación numérica densa.

Lo que se mantiene y lo que no

La contribución principal es sólida: esta es una distribución de consultas real de analistas en activo, y el problema de las abreviaturas es genuino. Cualquier benchmark construido a partir de Wikipedia o crowdsourcing al estilo FinQA pasa por alto esto. La estructura de evaluación de tres niveles —sin contexto, recuperación realista, contexto de oráculo— es el diseño correcto; separa limpiamente la calidad de la recuperación de la calidad del razonamiento y muestra la brecha de generación residual (todavía un ~32–34% de fallo incluso con un contexto perfecto en preguntas cualitativas).

Donde el artículo es más débil es en la reproducibilidad. En el momento de la publicación, el conjunto de datos no estaba disponible públicamente; los autores afirman que "planean lanzarlo públicamente en un momento posterior". Este es un problema significativo para un artículo de taller que se presenta como un estándar de evaluación. Los benchmarks que no se publican no son benchmarks; son estudios de caso. Desde entonces ha aparecido en ICAIF 2025, por lo que es posible que se haya producido el lanzamiento, pero la versión de arXiv no lo confirma.

La evaluación de recuperación también utiliza solo cuatro modelos de una sola etapa (BM25, GTE, mE5, E5-Mistral). No hay recuperación híbrida, ni expansión de consultas, ni HyDE, ni un paso de reescritura dirigido específicamente al problema de las abreviaturas. Dado que los autores han caracterizado con precisión la brecha de las abreviaturas, es sorprendente que no prueben la solución obvia: expandir la consulta ("GOOGL" → "Alphabet Inc.") antes de la recuperación. Ese experimento está ausente.

Los resultados de generación merecen una lectura más detallada. El rendimiento de ~9–10% sin contexto no es un límite inferior útil —es esencialmente cero—, pero el techo del oráculo del 60–68% es más informativo de lo que parece. Incluso con el pasaje correcto en la mano, los mejores modelos fallan en aproximadamente un tercio de las preguntas cualitativas y en cuatro quintos de la aritmética composicional. Ese techo importa: significa que la recuperación por sí sola no puede resolver el problema.

Por qué esto es importante para la IA en finanzas

La distribución de consultas en FinDER se ajusta bien a cómo los usuarios de Beancount interactúan realmente con un agente de libro mayor. Un usuario que ha mantenido sus cuentas durante años escribirá consultas abreviadas y contextuales: "¿reembolso tarjeta AMZN Q3?" en lugar de "¿Cuáles son los reembolsos de la tarjeta de crédito Amazon en el tercer trimestre?". Los modelos de embedding estándar no lograrán recuperar las entradas correctas porque fueron entrenados en texto limpio de lenguaje natural. La caída de 8.2 puntos en la precisión de las consultas limpias a las reales es probablemente conservadora para un dominio de libro mayor personal, donde la taquigrafía idiosincrásica ("comisión gest prop" por "comisión de gestión de propiedad") está aún más lejos de los datos de entrenamiento que las abreviaturas estándar de la SEC.

El techo de recuperación de contexto del 25.95% en E5-Mistral es una función de presión: cualquier pipeline RAG de Beancount debe prever una gran fracción de evidencia omitida. Una implicación es que la recuperación de alta exhaustividad (múltiples pases, formulaciones de consulta diversificadas) importa más que forzar el F1 en un solo pase. Otra es que la normalización de consultas —mapear la taquigrafía del usuario a nombres de cuentas canónicos antes de la recuperación— debería ser un paso de preprocesamiento explícito, no dejado al modelo de embedding.

La precisión del 20% en aritmética composicional incluso con contexto de oráculo es una señal separada: para las tareas de cálculo en Beancount, el cuello de botella de la generación es el razonamiento, no la recuperación. La descarga al estilo PAL (generar aritmética en Python en lugar de cálculos en texto libre) sigue siendo la respuesta correcta para las tareas numéricas, independientemente de lo buena que sea la recuperación.

Qué leer a continuación

  • Fin-RATE (arXiv:2602.07294): el benchmark complementario para el seguimiento de múltiples períodos en las presentaciones de la SEC; la precisión cae un 18.60% en tareas temporales, que es el problema del libro mayor de varios años de Beancount planteado directamente.
  • IRCoT (arXiv:2212.10509, ACL 2023): entrelazando la recuperación con el razonamiento de cadena de pensamiento; la estructura de recuperación de múltiples pases aborda directamente la baja recuperación de un solo pase que expone FinDER.
  • Expansión de consultas con LLM para recuperación específica de dominio: ningún artículo de benchmark individual cubre esto bien todavía, pero la brecha de abreviaturas de FinDER lo convierte en una prioridad de investigación de primer orden; buscar "HyDE financial domain" y "query expansion SEC filings 2025" es el punto de partida adecuado.