Ir al contenido principal

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

· 8 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La trayectoria de los benchmarks de LLM financieros sigue ampliando su alcance, y Fin-RATE es el ejemplo más claro hasta ahora de lo que sucede cuando finalmente pedimos a los modelos que hagan lo que hacen los analistas reales: realizar el seguimiento de una empresa no solo dentro de una presentación, sino a través de múltiples periodos y frente a sus pares del sector.

El artículo

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, publicado en febrero de 2026 por Yidong Jiang, Junrong Chen y sus colegas de Yale e instituciones colaboradoras, presenta un benchmark construido a partir de 2,472 presentaciones ante la SEC de 43 empresas y 36 industrias que abarcan el periodo 2020–2025. El benchmark organiza 7,500 pares de preguntas y respuestas seleccionados por expertos en tres tipos de tareas que reflejan los flujos de trabajo de los analistas profesionales: DR-QA (detalle y razonamiento dentro de una sola presentación), EC-QA (comparación entre entidades de dos empresas bajo un tema compartido) y LT-QA (seguimiento longitudinal de la misma firma a lo largo de los periodos de reporte). Cada tipo de tarea contiene 2,500 preguntas. La evaluación abarca 17 LLM: modelos de código cerrado, incluidos GPT-4.1 y GPT-5, modelos generales de código abierto como DeepSeek-V3 y Llama-3.3-70B, y modelos especializados en finanzas como Fin-R1, Fino1-14B, FinanceConnect-13B y TouchstoneGPT-7B. La puntuación utiliza un marco unificado de LLM-as-Judge con tres jueces independientes (GPT-5, DeepSeek-V3.2, Qwen3-235B) que califican cada respuesta según su exactitud y cinco dimensiones analíticas.

Ideas clave

  • El rendimiento se desploma a medida que aumenta la complejidad de la tarea: la precisión cae un 18.60% desde el DR-QA de un solo documento hasta el LT-QA longitudinal, y un 14.35% desde el DR-QA hasta el EC-QA entre entidades, en promedio entre los 17 modelos.
  • GPT-5 con búsqueda web es el modelo con mejor rendimiento, aunque su precisión máxima se sitúa en solo el 43–44% en los tres tipos de tareas, una cifra desalentadora para un benchmark destinado a reflejar los flujos de trabajo reales de los analistas.
  • Fin-R1, el modelo de razonamiento especializado en finanzas, alcanza el 57.48% en DR-QA pero colapsa al 3.32% en EC-QA: una caída de 54 puntos que supera con creces cualquier degradación de los modelos generales.
  • Bajo configuraciones RAG, el rendimiento de todos los modelos cae muy por debajo del 27%, en comparación con el rendimiento con contexto ideal (gold-context) de hasta el 57.48%; el sistema de recuperación, y no el LLM, es el cuello de botella limitante.
  • El artículo introduce una taxonomía de errores de 13 tipos en cuatro categorías: alucinaciones y contradicciones, errores semánticos y numéricos específicos de las finanzas, errores de comprensión de la consulta/contexto y fallos a nivel de recuperación. La falta de evidencia representa el 75.44% de los errores en la tarea EC-QA bajo RAG.
  • Los modelos especializados en finanzas muestran tasas de alucinación sistemáticamente más altas que los modelos generales en tareas complejas, a pesar de poseer una mejor terminología financiera.

Qué se sostiene — y qué no

La estructura de tres vías está genuinamente bien diseñada. La mayoría de los benchmarks financieros (FinQA, TAT-QA, FinanceBench) tratan las preguntas y respuestas como una tarea de un solo documento. Fin-RATE es uno de los primeros en modelar explícitamente la comparación entre entidades y el seguimiento longitudinal como tareas de primer orden, y los resultados exponen una brecha fundamental: los LLM actuales manejan aceptablemente las preguntas sobre divulgaciones aisladas, pero se desmoronan en el momento en que necesitan sintetizar información a través de documentos, entidades o periodos de tiempo.

El colapso de Fin-R1 es el hallazgo más sorprendente del artículo y creo que no se valora lo suficiente. Un modelo ajustado para finanzas que destaca en la extracción de un solo documento aparentemente se entrenó a sí mismo en un callejón sin salida: aprendió plantillas para responder dentro de un documento, no estrategias de razonamiento para relacionar entidades y periodos de tiempo. Esta es una advertencia concreta contra el ajuste fino en dominios estrechos sin una supervisión explícita del razonamiento multidocumento. Es probable que el modelo se sobreajuste al patrón superficial de "encontrar el número en la presentación" y no tenga una vía de generalización para "comparar este número con el número equivalente en otra presentación de otra empresa".

Dicho esto, existen preocupaciones metodológicas que vale la pena señalar. GPT-5 es simultáneamente uno de los modelos evaluados y uno de los tres jueces que califican las respuestas. Los autores utilizan tres jueces para reducir el sesgo individual, lo cual ayuda, pero el solapamiento entre juez y modelo con el modelo evaluado más fuerte resulta incómodo. El artículo informa de un alto acuerdo entre jueces, pero no cuantifica por separado qué fracción de las respuestas de GPT-5 fueron calificadas por el propio GPT-5, ni si las puntuaciones autoevaluadas de GPT-5 difieren sistemáticamente de las de los otros dos jueces. Cualquier sesgo de autoevaluación inflaría el resultado final del modelo con mejor desempeño en el estudio.

La muestra de 43 empresas también es escasa. La cobertura de los tipos de presentaciones es encomiablemente amplia (10-K, 10-Q, 8-K, 6-K, DEF 14A y varias series S y SC), pero las mismas 43 empresas aparecen en todas las tareas. Los modelos que han visto las divulgaciones de estas empresas durante el pre-entrenamiento tienen una ventaja no cuantificada, y el artículo no incluye ningún análisis de contaminación.

El hallazgo sobre la recuperación es importante pero incompleto. El documento identifica que el rendimiento de RAG colapsa aproximadamente 30 puntos frente al contexto ideal porque la recuperación falla. Pero solo evalúa una única configuración de recuperación: trata el fallo de recuperación como un diagnóstico en lugar de algo que se deba variar sistemáticamente. Un artículo de seguimiento que analice exhaustivamente las arquitecturas de recuperación en Fin-RATE sería mucho más útil.

Por qué esto importa para la IA en finanzas

La auditoría de libros contables de Beancount necesita exactamente las dos capacidades que Fin-RATE revela que están defectuosas: el seguimiento longitudinal (¿cómo evolucionó esta cuenta a lo largo de los años fiscales?) y la comparación entre entidades (¿se concilia el balance general de esta subsidiaria con el estado consolidado?). La caída del 18.60% en la precisión bajo el seguimiento temporal es una cifra concreta que debería calibrar las expectativas para cualquier agente de Beancount que razone a través de múltiples periodos de reporte. Si los modelos de vanguardia fallan al 43% bajo preguntas y respuestas longitudinales de la SEC con contexto ideal, un agente de Beancount que navegue por historiales de libros contables de varios años debería diseñarse con una recuperación explícita, fundamentación temporal y escalada humana, no con una inferencia de LLM de extremo a extremo.

El hallazgo sobre la importancia de la recuperación es fundamental para la prioridad del diseño del sistema. Si el rendimiento con contexto ideal es casi el doble del rendimiento con RAG, la inversión adecuada está en un mejor fraccionamiento (chunking), selección de pasajes y recuperación, no en un LLM base más capaz. Esto refleja lo que DocFinQA encontró para presentaciones de la SEC de contexto largo: el sistema alrededor del modelo es el cuello de botella.

La advertencia sobre Fin-R1 también se aplica directamente al caso de uso de Beancount. El ajuste fino en la sintaxis DSL de Beancount y los patrones de transacciones puede producir un modelo que maneje bien la generación de entradas simples, pero que falle bajo la conciliación multicuenta y multiperiodo que hace que la auditoría sea útil. La especialización sin entrenamiento en razonamiento multidocumento es frágil exactamente de la manera en que Fin-RATE mide.

Qué leer a continuación

  • Fin-R1 (arXiv:2503.16252): para entender qué configuración de entrenamiento produjo un rendimiento multidocumento tan frágil, y si el razonamiento multidocumento estuvo alguna vez dentro del alcance.
  • FinTrace (arXiv:2604.10015): evaluación a nivel de trayectoria de las llamadas a herramientas de LLM en 34 categorías de tareas financieras; complementa la visión estática de preguntas y respuestas de Fin-RATE con un diagnóstico a nivel de proceso de dónde los modelos invocan las herramientas adecuadas pero fallan al razonar sobre los resultados.
  • OpenHands (arXiv:2407.16741): la plataforma de agentes abierta que sustenta las evaluaciones de TheAgentCompany; comprender su arquitectura aclara qué capacidades básicas de los agentes estaban disponibles y qué brechas son atribuibles a la dificultad de la tarea más que a las limitaciones de la plataforma.