TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales
Hoy leo TAT-QA porque se encuentra en una intersección que importa directamente para lo que estamos construyendo: preguntas que solo pueden responderse razonando a través de una tabla y el texto circundante simultáneamente. En Beancount, cada entrada del libro mayor existe en contexto — una fila de tabla que no tiene sentido sin el memo, la narrativa de la contraparte o la política de cuenta que explica por qué ese ítem de línea está ahí. TAT-QA, publicado en ACL 2021 por Zhu et al. del laboratorio NExT++ en NUS, es el benchmark que obligó a la comunidad de PLN a enfrentar este problema de frente.
El artículo
Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng y Tat-Seng Chua presentan TAT-QA (QA Tabular y Textual), un conjunto de datos de 16.552 preguntas sobre 2.757 contextos híbridos extraídos de informes financieros anuales reales. Cada contexto empareja una tabla semiestructurada con al menos dos párrafos acompañantes — exactamente la estructura que se encuentra en las presentaciones 10-K, donde una tabla de ingresos se sitúa junto a la discusión de la gerencia sobre qué impulsó las cifras. Casi todas las preguntas requieren aritmética: suma, resta, multiplicación, división, conteo, comparación, ordenación y composiciones de múltiples operaciones.
La contribución principal es doble: el benchmark en sí y TAGOP, un nuevo modelo que trata la tarea como un etiquetado de evidencia seguido de razonamiento simbólico. TAGOP utiliza un etiquetador de secuencias sobre las celdas de la tabla y fragmentos de texto concatenados para identificar qué piezas de evidencia recolectar, luego aplica un conjunto fijo de operadores de agregación (suma, diferencia, producto, ratio, conteo, etc.) para calcular la respuesta final. Sin aritmética neuronal — el cálculo en sí siempre se delega a un ejecutor simbólico.
Ideas clave
- La identificación de evidencia es la parte difícil, no la aritmética. El análisis de errores de TAGOP atribuye aproximadamente el 55% de los fallos a un etiquetado incorrecto y el 29% a evidencia faltante. Una vez que se tienen las celdas y fragmentos correctos, el ejecutor simbólico rara vez comete un error de cálculo. Esta es una señal directa: para los agentes financieros, el paso de recuperación y fundamentación (grounding) domina.
- Los modelos de solo texto fallan de inmediato. BERT-RC logra solo un 18,7% de F1 en el conjunto de prueba. NumNet+ V2, el mejor lector numérico anterior a TAT-QA, alcanza el 46,9% de F1. La línea base de solo tabla TaPas obtiene un 22,8% de F1. Un modelo que lee tablas sin texto —o texto sin tablas— queda descalificado en este dominio.
- TAGOP obtiene un 58,0% de F1 (50,1% de coincidencia exacta), los expertos humanos obtienen un 90,8% de F1 (84,1% de EM). La brecha de 32,8 puntos de F1 en el momento de la publicación era alarmante. Significaba que incluso el mejor sistema de 2021 responde a menos de dos tercios de las preguntas que un analista capacitado puede manejar.
- A finales de 2024, la tabla de clasificación cuenta una historia diferente. El sistema superior, TAT-LLM (70B), alcanza el 88,4% de F1, solo 2,4 puntos por debajo del humano. TAT-LLM (7B) alcanza el 82,88% de F1, y GPT-4 en zero-shot alcanza el 79,71% de F1. La brecha se cerró drásticamente, principalmente a través del ajuste fino a escala de LLM.
- El ajuste fino especializado todavía supera al GPT-4 básico. TAT-LLM 7B (74,56% EM) supera a GPT-4 zero-shot (71,92% EM) en TAT-QA, incluso con una fracción del conteo de parámetros. El pipeline paso a paso Extractor→Razonador→Ejecutor que utiliza TAT-LLM refleja la intuición de TAGOP pero reemplaza el etiquetador simbólico con un LLM con prompts.
Qué se mantiene — y qué no
El benchmark son datos reales, preguntas reales, informes financieros reales. Esa credibilidad es su mayor activo. La brecha de 32 puntos entre humanos y modelos en el momento de la publicación era genuina y el conjunto de datos es lo suficientemente difícil como para que, incluso cinco años después, los sistemas de vanguardia no la hayan cerrado por completo.
Lo que me preocupa es el supuesto de una sola tabla. Cada contexto de TAT-QA contiene exactamente una tabla. Los informes anuales reales contienen docenas, a menudo con relaciones jerárquicas entre segmentos, subsidiarias y períodos de tiempo. Un modelo que puede responder preguntas de TAT-QA perfectamente todavía no está preparado para la consolidación entre tablas que domina el trabajo contable real. El artículo de MMQA (ICLR 2025) señala exactamente este punto: que los benchmarks de una sola tabla como TAT-QA subestiman la complejidad multitabla a la que se enfrentan los profesionales.
La distribución del tipo de respuesta tampoco es tan difícil como parece en la práctica. Aproximadamente el 42% de las respuestas de TAT-QA son fragmentos únicos — extracciones directas que no requieren cálculo. Las composiciones desafiantes de múltiples operaciones son una minoría. Un modelo que acierte en todas las extracciones y falle en toda la aritmética aún obtendría una puntuación en el rango del 30–40%. El benchmark no pondera por dificultad, lo que aplana la señal de los casos de razonamiento verdaderamente difíciles.
Finalmente, la línea base humana (90,8% de F1) se calculó utilizando anotadores que tenían acceso al documento pero que podrían no haber sido expertos de nivel CPA. Para el razonamiento de libros mayores a escala de Beancount —donde un agente debe comprender la política contable, no solo la aritmética— el 90,8% puede ser una sobreestimación del techo "correcto".
Por qué esto es importante para la IA en finanzas
TAT-QA es el benchmark público más cercano a lo que enfrenta un agente de Beancount a diario: datos de entrada estructurados (tabla) junto a una narrativa no estructurada (memo, descripción, nota de política). El resultado de TAGOP confirma lo que esperaría al construir herramientas para libros mayores: la fundamentación es más difícil que el cálculo. El problema es lograr que las celdas correctas sean etiquetadas; sumarlas es trivial.
La trayectoria de la tabla de clasificación es alentadora para el producto: un modelo de 7 mil millones de parámetros ajustado en este dominio supera al GPT-4 en zero-shot, lo que sugiere que un modelo ajustado específicamente para Beancount podría manejar la carga de trabajo de recuperación + aritmética sin necesidad de llamadas a la API de modelos de vanguardia para cada consulta del libro mayor. La latencia, el costo y la privacidad de los datos mejoran si podemos ejecutar un especialista compacto localmente.
La limitación de una sola tabla es la brecha directa a cerrar para Bean Labs. Los libros mayores de Beancount son efectivamente documentos multitabla —registros de cuentas, líneas de presupuesto, notas de conciliación— y el benchmark que capture esa estructura de múltiples saltos a través de tablas relacionadas aún no existe del todo. MultiHiertt (ACL 2022) es lo más parecido; es el siguiente artículo en mi lista.
Qué leer a continuación
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — aborda directamente la limitación de una sola tabla de TAT-QA; las preguntas requieren razonamiento a través de múltiples tablas jerárquicas dentro del mismo documento financiero, más parecido a cómo se ven los estados de cuenta consolidados del libro mayor.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — extiende FinQA al diálogo de múltiples turnos; los modelos deben rastrear el contexto numérico actual a través de los turnos de preguntas, lo que se mapea con la forma en que un agente de Beancount maneja las consultas de seguimiento sobre una sesión del libro mayor.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — el seguimiento directo del mismo grupo NExT++; muestra cómo LLaMA-2 ajustado con un pipeline de Extractor→Razonador→Ejecutor supera a GPT-4 en zero-shot en TAT-QA y FinQA.
