FinQA: El benchmark que mide el razonamiento numérico de la IA en informes financieros
FinanceBench demostró la semana pasada que la recuperación de información no es la parte difícil del QA financiero: el razonamiento numérico lo es. FinQA, publicado en EMNLP 2021, es el artículo que estableció el porqué. Lo leo ahora porque es el benchmark fundamental para la aritmética financiera; cada trabajo posterior en este espacio lo extiende o se compara con él, y entender dónde fallan sus modelos explica dónde fallarán también los agentes de Beancount actuales.
El artículo
Zhiyu Chen, Wenhu Chen y colegas de UC Santa Barbara, J.P. Morgan y Amazon introdujeron FinQA: Un conjunto de datos de razonamiento numérico sobre datos financieros (arXiv:2109.00122, EMNLP 2021). La tarea central: dado un informe de ganancias que contiene tanto una narrativa en prosa como una o más tablas financieras, responder a una pregunta que requiere aritmética de múltiples pasos sobre hechos extraídos de ambas modalidades. La respuesta debe derivarse a través de un programa numérico explícito: una secuencia de hasta cinco operaciones (suma, resta, multiplicación, división, comparación, agregación de tablas y un puñado de otras) aplicadas a los valores extraídos.
Once profesionales de finanzas radicados en EE. UU. (CPA, MBA) construyeron el conjunto de datos a mano a partir de 2,789 páginas de informes de ganancias de S&P 500 que abarcan de 1999 a 2019. El conjunto de datos final contiene 8,281 pares de QA anotados, cada uno con hechos de respaldo de referencia y el programa de razonamiento completo, lo que lo hace totalmente ejecutable y auditable.
Ideas clave
- La brecha es brutal en el momento del lanzamiento. FinQANet (RoBERTa-large), el mejor modelo neuronal que los autores pudieron presentar, alcanzó un 61.24% de precisión de ejecución y un 58.86% de precisión de programa en el conjunto de prueba. Los expertos financieros humanos obtuvieron un 91.16% y un 87.49%. Los trabajadores externos no expertos alcanzaron solo el 50.68%, apenas por encima del valor base neuronal, lo que indica que el dominio requiere experiencia real, no solo comprensión lectora.
- Donde todo se rompe es en el proceso de múltiples pasos. Para los programas que requieren tres o más pasos de razonamiento, la precisión de FinQANet se desploma al 22.78%. El modelo puede manejar aritmética de dos pasos razonablemente; cualquier paso adicional y el error se acumula.
- Las preguntas de intermodalidad son el caso difícil. Las preguntas cuya evidencia abarca tanto la tabla como la prosa tienen una precisión del 43.80%, aproximadamente 17 puntos por debajo del promedio general. Vincular un número de un párrafo de tabla con un calificador en el texto no es algo que los modelos pre-entrenados estándar hagan bien.
- Las constantes de dominio son un asesino silencioso. Cuando un paso del programa requiere una constante que es una convención financiera (por ejemplo, que hay 1,000 miles en un millón, o que un punto básico es 0.01%) en lugar de algo establecido en el documento, la precisión cae al 43.88%. El modelo no puede distinguir de manera confiable entre "este número está en el documento" y "este número es conocimiento del mundo".
- ~50% de los errores se deben a lagunas de conocimiento de dominio, no a fallas de recuperación o errores de ejecución aritmética. El modelo encontró los hechos correctos pero aplicó una lógica financiera incorrecta.
- Los LLM posteriores cierran sustancialmente la brecha pero no la eliminan. Se informa que GPT-4 tiene aproximadamente un 76% de precisión de ejecución en FinQA, y los sistemas SOTA específicos para la tarea alcanzaron alrededor del 89% para 2024, todavía por debajo del desempeño de los expertos humanos.
Qué se mantiene — y qué no
El diseño del benchmark es sólido. Usar programas ejecutables en lugar de respuestas de texto libre es la decisión correcta: se puede puntuar un modelo sin ambigüedades y se obtiene una ventana a cómo razonó, no solo si acertó. La decisión de requerir evidencia tanto de tabla como de texto refleja el análisis financiero del mundo real, donde la tabla proporciona el número y la nota al pie explica qué significa ese número.
Dicho esto, la tarea es más estrecha de lo que parece. El DSL de operaciones predefinido cubre la aritmética financiera estándar, pero no puede representar una decisión de categorización ("¿es este gasto recurrente o extraordinario?"), una verificación de política ("¿cumple este flujo de caja con nuestra política presupuestaria?") o cualquier cosa que requiera la recuperación externa de datos de mercado o estándares contables. Los programas son correctos y explicables, pero viven en un mundo donde la única incertidumbre es la aritmética, no el juicio.
La configuración de recuperación también proporciona al modelo hechos de respaldo de referencia durante el entrenamiento, lo que favorece los números. En un despliegue real, habría que recuperar las celdas correctas de la tabla de un documento extenso antes de poder ejecutar el programa, y ese paso de recuperación no es trivial, como mostró FinanceBench la semana pasada.
Finalmente, los resultados de 2021 subestiman la capacidad actual de los modelos. El valor base de ~61% fue antes de ChatGPT. El número de ~76% de GPT-4 y los números SOTA de ~89% provienen de flujos de trabajo especializados que combinan cadena de pensamiento, ejecución de código y ajuste fino (fine-tuning). La brecha con el experto humano (91%+) se ha reducido pero persiste.
Por qué esto es importante para la IA financiera
Los libros mayores de Beancount son esencialmente informes de ganancias simplificados: filas estructuradas de débitos y créditos con metadatos en prosa en notas de transacciones, campos de beneficiario y jerarquías de cuentas. Cada habilidad que evalúa el benchmark FinQA se mapea directamente a algo que un agente de Beancount debe hacer.
El modo de falla de intermodalidad es particularmente importante. En un contexto de Beancount, un agente podría ver un monto de transacción en el libro mayor, una tasa de moneda extranjera en una directiva de precio y un comentario en el campo de nota, y necesitar los tres para calcular el valor correcto en la moneda de informe. Los modelos que FinQA probó en 2021 no podían hacer referencias cruzadas de esas fuentes de manera confiable. Los LLM actuales lo hacen mejor, pero la precisión del 22.78% en programas de más de 3 pasos es una advertencia: la longitud de la cadena es un eje de falla real, y las tareas de conciliación de libros mayores de múltiples pasos se verán afectadas por ello.
El problema de las constantes de dominio también se generaliza. La contabilidad tiene sus propias convenciones —invariantes de partida doble, semántica de tipos de cuenta, límites de año fiscal— que un modelo debe conocer sin que se le indiquen. El análisis de errores de FinQA, que muestra ~50% de fallas por conocimiento de dominio, sugiere que un agente de Beancount necesita un ajuste fino en convenciones contables o una capa de recuperación explícita para reglas contables, no solo para entradas del libro mayor.
La representación de programas del benchmark, aunque limitada, también señala cómo los agentes de Beancount deberían expresar su razonamiento: no en lenguaje natural que podría ser vago, sino en operaciones ejecutables que pueden ser verificadas, revertidas o auditadas.
Qué leer a continuación
- TAT-QA (arXiv:2105.07624, ACL 2021): amplía el entorno híbrido de tabla + texto a 16,552 preguntas con una variedad más rica de tipos de razonamiento; vale la pena estudiar el modelo TAGOP que introduce por cómo maneja la extracción de fragmentos de ambas modalidades de forma conjunta.
- ConvFinQA (arXiv:2210.03849, EMNLP 2022): la extensión conversacional de FinQA, donde cada diálogo tiene dependencias numéricas entre turnos; la estructura de turnos múltiples se mapea directamente a un asistente interactivo de Beancount que debe rastrear cálculos en curso a través de las consultas del usuario.
- MultiHiertt (arXiv:2206.01347, ACL 2022): lleva el entorno a informes financieros con múltiples tablas jerárquicas por documento; un paso necesario hacia los estados consolidados y las vistas de libros mayores multianuales a las que se enfrentarán los agentes de Beancount.
