Ir al contenido principal

FinBen: Evaluación comparativa de LLM en 36 tareas financieras — Implicaciones para la IA contable

· 6 min de lectura
Tian Pan
Research Engineer

FinBen llegó a NeurIPS 2024 como la evaluación pública más exhaustiva de LLM en tareas financieras hasta la fecha. He querido leerlo con detenimiento porque, antes de diseñar cualquier agente autónomo sobre libros mayores de Beancount, necesito una imagen realista de dónde se encuentran realmente los modelos de frontera en las tareas de razonamiento financiero que dicho agente necesitaría realizar.

El artículo

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie y otros 33 coautores presentan FinBen, un benchmark de código abierto que cubre 36 conjuntos de datos en 24 tareas financieras, organizadas en siete dimensiones: extracción de información, análisis textual, respuesta a preguntas, generación de texto, gestión de riesgos, previsión y toma de decisiones. Evalúan 15 LLM representativos —incluyendo GPT-4, ChatGPT, Gemini y varios modelos de código abierto ajustados mediante instrucciones— e introducen tres nuevos conjuntos de datos para la evaluación de resúmenes, preguntas y respuestas, y negociación de acciones.

La motivación central es que los benchmarks financieros anteriores, como FLUE y FLARE, capturaban cada uno una parte del procesamiento de lenguaje natural (NLP) financiero, pero nada cercano a la cadena completa. FinBen es el primer intento de abarcar todo el conjunto en un solo lugar, y fue aceptado en el track de Conjuntos de Datos y Benchmarks de NeurIPS 2024, lo que le otorga un sello razonable de escrutinio metodológico.

Ideas clave

  • En el reconocimiento de entidades nombradas, GPT-4 obtiene una puntuación F1 de entidad de 0,83 en el conjunto de datos FINER-ORD; sólida, pero esta es la categoría más fácil del benchmark.
  • En FinQA (razonamiento numérico sobre informes financieros), GPT-4 alcanza un 0,63 de Coincidencia Exacta; en la variante conversacional ConvFinQA, obtiene un 0,76. Estos son resultados respetables pero lejos de estar resueltos.
  • El modelo FinMA 7B, ajustado para el dominio, logra un F1 de 0,88 en el sentimiento de FPB, superando a GPT-4 en esta tarea específica, lo que confirma que el ajuste fino (fine-tuning) sigue aportando valor en clasificaciones bien definidas.
  • La predicción del movimiento de las acciones es el modo de fallo más evidente: incluso GPT-4 obtiene una precisión de aproximadamente 0,54, apenas por encima del azar. Los autores califican esto como "una deficiencia notable en la capacidad de los LLM para abordar la previsión".
  • GPT-4 alcanza un Ratio de Sharpe de 1,51 en la tarea de trading frente al 1,03 de Gemini y un rendimiento acumulado del 28,19% frente a un rendimiento de comprar y mantener del -4,00% durante el periodo de evaluación; sin embargo, se trata de un backtest corto con todas las advertencias habituales.
  • Todos los modelos obtuvieron una puntuación de cero en el resumen extractivo, y GPT-4 obtuvo un F1 de 0,01 en la extracción de relaciones. Las capacidades colapsan bruscamente fuera de la zona de confort de la clasificación de textos y la generación abierta.

Qué se sostiene — y qué no

El benchmark es genuinamente útil como instrumento de encuesta. La gama de tareas es más amplia que cualquier otra anterior, y el lanzamiento en código abierto significa que otros pueden construir sobre la infraestructura de evaluación en lugar de empezar de cero.

Dicho esto, tengo serias dudas sobre lo que FinBen puede decir realmente. El periodo de evaluación de trading es corto y específico de un mercado; un Ratio de Sharpe calculado durante unos pocos meses en acciones estadounidenses no es una señal estable. Las puntuaciones de cero en el resumen extractivo nos dicen que algo falla, pero el artículo no diagnostica el porqué; ¿se trata de un problema de formato del prompt, un artefacto de tokenización o un fallo genuino de razonamiento? La distinción es importante para cualquiera que intente solucionarlo.

El benchmark también se centra casi por completo en el inglés y en el mercado estadounidense. Esto no es solo una advertencia sobre la generalización; significa que los resultados dicen muy poco sobre el rendimiento en, por ejemplo, documentos financieros alemanes o chinos, o en jurisdicciones con diferentes estándares contables. Para un proyecto como Beancount.io, que sirve a una base de usuarios global, esto es una brecha significativa.

La historia del modelo ajustado por instrucciones también es más confusa de lo que parece a primera vista. El ajuste fino ayuda en el sentimiento (FinMA 7B con 0,88) pero "proporciona solo mejoras marginales para tareas complejas como QA". El artículo informa de esto como un hallazgo, pero no ofrece una explicación mecánica. ¿Se trata de un olvido catastrófico en la capacidad de razonamiento del modelo base? ¿Es la distribución de los datos de ajuste fino demasiado estrecha? La superficie del benchmark por sí sola no puede responder a esto.

Por qué esto es importante para la IA financiera

Los resultados de FinBen dan a Bean Labs una línea base más clara de la que teníamos antes. Las tareas más relevantes para un agente de libro mayor de Beancount —QA numérico sobre informes financieros estructurados (FinQA: 0,63 de Coincidencia Exacta), extracción de información de descripciones de transacciones (NER: 0,83 F1) y detección de anomalías o clasificación de fraude (tareas de gestión de riesgos que muestran una gran varianza)— están todas representadas aquí, y ninguna está resuelta.

El colapso de la previsión (0,54 en el movimiento de acciones) es en realidad tranquilizador para nuestro caso de uso más acotado: no estamos pidiendo a los modelos que predigan los mercados, les estamos pidiendo que clasifiquen, extraigan y escriban entradas estructuradas. Esas tareas se sitúan en el rango de 0,63–0,83 dependiendo de la complejidad, lo cual es una base viable, aunque "viable" no significa "seguro para producción sin revisión humana".

La brecha entre la extracción estructurada y el razonamiento abierto también se traduce directamente en el problema de la seguridad de la escritura (write-back). Si un modelo puede extraer de forma fiable una entidad (F1 0,83) pero tiene dificultades para razonar sobre sus implicaciones numéricas (FinQA 0,63) o generar una salida estructurada correcta (extracción de relaciones: 0,01), entonces la arquitectura más segura mantiene esos pasos separados, con validación explícita entre ellos.

Qué leer a continuación

  • FinMaster (arXiv:2505.13533) — evalúa explícitamente flujos de trabajo contables de extremo a extremo, incluyendo el registro de asientos y la conciliación; más cercano a la tarea de Beancount que cualquier cosa en FinBen.
  • "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" (arXiv:2305.13062, WSDM 2024) — Los libros mayores de Beancount son esencialmente tablas estructuradas; este artículo evalúa exactamente las capacidades de comprensión estructural que subyacen a cualquier agente de lectura de libros mayores.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — el marco de razonamiento y acción entrelazados es lo que utilizarían la mayoría de los agentes de escritura; comprender sus modos de fallo es más importante ahora que FinBen ha mostrado dónde está realmente el suelo del razonamiento.