MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas
Cada benchmark de QA financiero que he leído este mes —FinQA, TAT-QA, ConvFinQA— se basa en la misma suposición silenciosa: una sola tabla plana por documento. Los informes financieros reales no se parecen en nada a eso. Los balances consolidados anidan subsidiarias dentro de segmentos dentro de entidades matrices; los estados de resultados contienen partidas jerárquicas con subtotales que a su vez alimentan agregados superiores. MultiHiertt (Zhao et al., ACL 2022) es el primer dataset de referencia creado para exponer exactamente esta brecha, y las cifras que resultan de él son aleccionadoras.
El artículo
Yilun Zhao, Yunxiang Li, Chenying Li y Rui Zhang de Penn State presentan MultiHiertt, un benchmark de QA de 10,440 pares de preguntas y respuestas extraídos de 2,513 informes financieros reales. Cada documento promedia 3.89 tablas jerárquicas junto con 68 oraciones (~1,645 palabras) de texto narrativo. La división de entrenamiento/desarrollo/prueba es 7,830 / 1,044 / 1,566. El argumento central es simple pero directo: los conjuntos de datos anteriores (FinQA, TAT-QA) evalúan modelos en documentos con una sola tabla plana, lo que subestima sistemáticamente la complejidad del razonamiento sobre las presentaciones financieras reales, donde una pregunta puede requerir la síntesis de números de tres tablas secundarias separadas antes de aplicar un programa aritmético.
Junto con el dataset, los autores proponen MT2Net, un modelo de dos etapas: un módulo de recuperación de hechos que califica las celdas de soporte candidatas y los tramos de texto de todas las tablas y párrafos, seguido de un módulo de razonamiento simbólico (un ejecutor de programas aritméticos tomado del diseño NeRd de FinQA) que opera sobre los hechos recuperados. MT2Net utiliza RoBERTa-large como su codificador en todo momento.
Ideas clave
- El promedio de 3.89 tablas por documento de MultiHiertt refleja directamente la estructura real de los informes anuales, donde una sola pregunta puede requerir valores del estado de resultados, una tabla de desglose por segmentos y un anexo de notas al pie, ninguno de los cuales es plano.
- MT2Net (RoBERTa-large) logra un F1 de 38.43% en el conjunto de prueba; los expertos humanos obtienen un F1 de 87.03%, una brecha de casi 49 puntos.
- Las preguntas de razonamiento entre tablas (que requieren evidencia de ≥ 2 tablas) obtienen un F1 de 21.04% bajo el mejor modelo, frente al 36.77% para las preguntas de una sola tabla, una caída de más de 15 puntos desde una línea de base ya baja.
- El módulo de razonamiento simbólico ayuda pero no puede compensar las fallas de recuperación: el estudio de anotación muestra que el 31.5% de los errores en ejemplos jerárquicos provienen de seleccionar las celdas de evidencia incorrectas antes de intentar cualquier aritmética.
- Para 2024, GPT-4 con prompting de "Program-of-Thoughts" alcanza un F1 de 67.23% en MultiHiertt, y un método dedicado de EEDP (evidence-enhanced document prompting) eleva a GPT-4 al 70.32%, todavía 17 puntos por debajo del techo humano.
- La calidad de la anotación es sólida: Kappa inter-anotador de 0.72–0.90, con el 76.8%–94.0% de las muestras calificadas con ≥ 4/5 en corrección por trabajadores de crowdsourcing.
Lo que se mantiene y lo que no
La construcción del dataset es cuidadosa y las métricas de calidad de anotación son tranquilizadoras. La afirmación central —que los benchmarks de una sola tabla subestiman la complejidad real— es obviamente cierta y la brecha de 15 puntos en F1 entre los subconjuntos de una y varias tablas lo hace concreto. La tabla comparativa (Tabla 1 en el artículo) muestra claramente que FinQA y TAT-QA tienen una tabla por documento; MultiHiertt está llenando genuinamente una brecha real.
Dicho esto, MT2Net no es una solución propuesta sólida; es más bien una línea de base fuerte. El módulo de recuperación es un calificador a nivel de tramo (span) entrenado con supervisión sobre hechos de apoyo, lo que significa que depende en gran medida de tener una señal de supervisión correcta en el momento del entrenamiento. El artículo no evalúa qué sucede cuando la estructura jerárquica es implícita (sin anidamiento HTML explícito de padre-hijo), lo cual es común en presentaciones escaneadas y PDFs antiguos. El conjunto de prueba se mantiene reservado detrás de una tabla de clasificación de CodaLab, lo que dificulta la replicación independiente de los resultados o la investigación de los modos de falla.
También quiero señalar algo que los autores no enfatizan lo suficiente: los resultados de GPT-4 en 2024 muestran que el poder de razonamiento bruto puede cerrar gran parte de la brecha sin ninguna arquitectura diseñada específicamente para la jerarquía. GPT-4 llega al 70% sin que nunca se le diga que el documento tiene tablas jerárquicas; simplemente lee el HTML renderizado. De hecho, este es un hallazgo interesante: la conciencia de la jerarquía puede importar menos que la capacidad pura de contexto y la confiabilidad aritmética. La restricción vinculante puede seguir siendo la precisión de la recuperación en documentos largos, no la arquitectura de razonamiento.
Por qué esto es importante para la IA en finanzas
Los agentes de Beancount se enfrentan exactamente a este problema. Una pregunta como "¿cuál fue nuestra tasa impositiva efectiva en 2023?" requiere encontrar la línea de ingresos antes de impuestos del estado de resultados, el gasto por impuesto sobre la renta de una nota separada y, posiblemente, un desglose a nivel de segmento para conciliar la cifra consolidada. Nada de eso reside en una sola tabla plana. La penalización de 15 puntos en F1 para el razonamiento entre tablas en MultiHiertt cuantifica lo que esperaría ver en un contexto de Beancount: los agentes que parecen buenos en consultas de una sola cuenta se degradarán significativamente cuando una pregunta requiera unir secciones del libro mayor.
El análisis de errores es directamente aplicable. Si el 31.5% de los errores son recuperaciones de evidencia incorrectas antes de que ocurra cualquier cálculo, entonces la prioridad para un agente de escritura de Beancount no es un mejor motor aritmético, sino un mejor selector de evidencia. Un agente que recupere las líneas de libro mayor incorrectas antes de hacer las cuentas producirá entradas que parecen plausibles pero son incorrectas, exactamente el modo de falla que es más difícil de detectar en una auditoría.
La trayectoria de GPT-4 también es alentadora a corto plazo: pasar del 38% al 70% en dos años sugiere que el razonamiento financiero multi-tabla es abordable a medida que las ventanas de contexto y el razonamiento mejoran, incluso sin entrenamiento específico del dominio. Pero la brecha restante de 17 puntos respecto al rendimiento humano no es ruido; probablemente refleja casos donde la estructura jerárquica conlleva una carga semántica que el renderizado de texto plano pierde.
Qué leer a continuación
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — la base sobre la que se construye casi cualquier sistema de QA financiero; entender su división de memoria paramétrica frente a no paramétrica es importante para decidir cómo estructurar la recuperación del libro mayor.
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — recupera información a mitad de la generación cuando el modelo predice que necesita nuevos hechos, lo cual es un ajuste natural para el razonamiento multi-tabla donde descubres a mitad del razonamiento que necesitas una tabla subsidiaria.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — ajusta finamente un LLM específicamente en FinQA/TAT-QA/MultiHiertt y muestra lo que la adaptación de dominio realmente aporta frente al prompting de GPT-4.
