Ir al contenido principal

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Después de dedicar varios registros al QA financiero de un solo turno —FinQA, FinanceBench, TAT-QA—, quería observar qué sucede cuando los usuarios hacen preguntas de seguimiento. ConvFinQA (Chen et al., EMNLP 2022) es el artículo que toma el entorno de FinQA y lo extiende a conversaciones de turnos múltiples, y los resultados exponen un modo de fallo que los benchmarks de un solo turno simplemente no pueden ver: los modelos que dominan el razonamiento numérico aislado frecuentemente colapsan en el momento en que una pregunta hace referencia a algo dicho hace dos turnos.

El artículo

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

ConvFinQA, de Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah y William Yang Wang (UC Santa Barbara y J.P. Morgan), construye un conjunto de datos de 3,892 conversaciones de turnos múltiples que totalizan 14,115 preguntas sobre 2,066 páginas de informes financieros. Cada conversación se basa en informes de ganancias —las mismas presentaciones del S&P 500 utilizadas en FinQA— y las preguntas se encadenan de modo que los turnos posteriores puedan hacer referencia a respuestas anteriores. El formato de la tarea se hereda de FinQA: los modelos generan un programa en un pequeño lenguaje específico del dominio (sumar, restar, multiplicar, dividir, mayor que, exp) que luego se ejecuta para producir la respuesta. La evaluación utiliza la precisión de ejecución (si el resultado ejecutado coincide con la respuesta de referencia) y la precisión del programa (si el programa generado coincide con el programa de referencia).

El conjunto de datos tiene dos tipos de conversación. Las conversaciones "simples" de Tipo I descomponen una sola pregunta compleja de FinQA en una secuencia de subpreguntas. Las conversaciones "híbridas" de Tipo II concatenan descomposiciones de dos preguntas diferentes de FinQA sobre el mismo informe, forzando un razonamiento entre múltiples aspectos. Más del 60% de las preguntas tienen dependencias de turnos anteriores, y las preguntas de la segunda parte en las conversaciones híbridas son sustancialmente más difíciles porque el modelo debe mantener el estado del razonamiento a través de diferentes temas financieros.

Ideas clave

  • El mejor modelo ajustado (FinQANet con RoBERTa-large): 68,90% de precisión de ejecución en el conjunto de prueba. Los expertos financieros humanos alcanzan el 89,44%. Los trabajadores de crowdsourcing generales (MTurk): 46,90%, una brecha sorprendente que confirma que la tarea requiere conocimiento genuino del dominio.
  • GPT-3 (text-davinci-002, 175B) con 20 ejemplos de few-shot y hechos de referencia (gold facts): 50,30% de precisión de ejecución, muy por debajo del especialista ajustado y apenas por encima de la multitud general.
  • El prompting de cadena de pensamiento (CoT) perjudica a GPT-3: CoT produce un 40,63% frente al 45,15% del prompting de programa estándar. El modelo imita el formato de razonamiento de los ejemplos dados en lugar de aplicarlo a la pregunta real.
  • Las conversaciones híbridas son sustancialmente más difíciles: la segunda parte de una conversación híbrida obtiene un 52,38% para FinQANet frente al 72,37% de las conversaciones simples. La referencia cruzada de múltiples aspectos es donde los modelos actuales fallan.
  • GPT-3 tiene dificultades específicas con las preguntas de selección de números —responder a un seguimiento como "¿qué pasa con el año anterior?"— logrando solo un 35,32% donde FinQANet alcanza el 82,54%. La resolución de anáforas conversacionales es el cuello de botella.

Lo que se mantiene y lo que no

La construcción del conjunto de datos es cuidadosa y la evaluación es limpia. El uso de la precisión del programa junto con la precisión de ejecución es valioso: dos programas pueden producir la misma respuesta numérica mediante rutas de razonamiento diferentes (posiblemente incorrectas), y la precisión del programa detecta eso. La decisión de anclar las conversaciones en presentaciones reales del S&P 500 mantiene la tarea fundamentada en lugar de ser sintética.

Dicho esto, la variedad de la conversación está limitada por diseño. Cada conversación se construye descomponiendo preguntas existentes de FinQA; no hay diálogos verdaderamente abiertos, ni turnos de aclaración, ni correcciones del usuario. Las conversaciones contables reales incluyen todo esto. El conjunto de datos es una aproximación controlada del razonamiento conversacional, no una muestra naturalista.

El análisis de GPT-3 ha envejecido de manera extraña. En el momento de la publicación (finales de 2022), que GPT-3 alcanzara un máximo por debajo del 50% se sentía como un resultado negativo significativo. Pero el artículo es anterior a GPT-4, y trabajos posteriores muestran que modelos más capaces cierran gran parte de la brecha. El hallazgo de CoT —que el prompting fue contraproducente— es interesante pero puede ser específico del modelo: CoT tiende a funcionar mejor en modelos con un seguimiento de instrucciones más sólido.

La evaluación también se centra por completo en la corrección de la respuesta final e ignora la calidad de la cadena de razonamiento intermedia. Esto importa porque un modelo puede generar una respuesta numéricamente correcta a través de un programa incorrecto (que la precisión del programa detecta parcialmente) o un programa correcto a través de un razonamiento frágil que fallaría ante una ligera paráfrasis. FinChain (2025) critica esto explícitamente, motivando una alternativa centrada en la transparencia. Para los sistemas de producción, saber por qué el modelo obtuvo la respuesta correcta es tan importante como saber que lo hizo.

Por qué esto importa para la IA en finanzas

Un agente de Beancount que atiende las consultas de los usuarios rara vez recibe una sola pregunta autónoma. Los usuarios preguntan "¿cuánto gasté en comestibles el mes pasado?" y luego "¿cómo se compara eso con el mes anterior?" y luego "¿es eso más de lo que presupuesté?". Cada pregunta se basa en la anterior. ConvFinQA es el benchmark publicado más cercano a este patrón de interacción, y sus cifras son aleccionadoras: incluso con recuperación de referencia (gold retrieval), el mejor modelo disponible en 2022 dejó una brecha de ~21 puntos porcentuales con respecto al desempeño de los expertos humanos, y la brecha se amplía en las preguntas de múltiples aspectos.

Vale la pena señalar el fallo específico en las conversaciones híbridas. Cuando un usuario pasa de preguntar por los ingresos a preguntar por los gastos en la misma sesión, el modelo necesita llevar adelante el contexto numérico mientras restablece el enfoque temático. Eso es exactamente lo que un agente de Beancount debe hacer a través de una sesión de revisión de libro mayor de turnos múltiples. La puntuación del 52,38% en esos turnos es un límite inferior directo de qué tan bien manejan ese escenario los enfoques actuales.

El hallazgo de CoT también es útil en la práctica: sugiere que al incitar a un modelo a razonar sobre datos financieros en un entorno de turnos múltiples, la generación de programas estructurados puede ser más confiable que la cadena de pensamiento de forma libre, al menos para modelos del nivel de capacidad de GPT-3. Los modelos más capaces podrían no mostrar esta inversión, pero es una hipótesis a probar, no una suposición a dar por sentada.

Qué leer a continuación

  • Seguimiento APOLLO de ConvFinQA (arXiv:2212.07249): logra el estado del arte en ConvFinQA utilizando muestreo negativo consciente de los números y aprendizaje por refuerzo basado en la consistencia; vale la pena leerlo para ver qué cerró la brecha después del artículo original.
  • Program of Thoughts Prompting (arXiv:2211.12737, 2022): delega la aritmética a un intérprete de Python en lugar de a un DSL; reportó una mejora de ~12% sobre CoT en tareas de QA financiero y un rendimiento cercano al SoTA en ConvFinQA; conecta las ideas de CodeAct directamente con el razonamiento financiero.
  • FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023): recupera información bajo demanda durante la generación en lugar de hacerlo una sola vez al principio; directamente relevante para el entorno de turnos múltiples donde lo que el modelo necesita buscar cambia turno tras turno.