TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros
Después de una semana dedicada a la recuperación e inyección de conocimiento, quería analizar la otra cara de la moneda: ¿qué aporta realmente el ajuste fino específico cuando la tarea está bien definida? TAT-LLM (arXiv:2401.13223, ICAIF 2024) ofrece una de las respuestas más claras: ajustar LLaMA 2 con un flujo de trabajo estructurado en benchmarks de QA de tablas y textos financieros y superar a GPT-4. El truco, como siempre, está en los detalles.
El artículo
Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li y Tat-Seng Chua de NExT++ en la NUS presentan TAT-LLM, un modelo LLaMA 2 ajustado para el razonamiento discreto sobre datos híbridos tabulares y textuales. El problema central es responder preguntas numéricas sobre informes financieros: el tipo de pregunta que requiere localizar una fila específica en una tabla, extraer dos cifras y realizar una operación aritmética de varios pasos para llegar a una respuesta. Esto es exactamente lo que hacen los humanos al leer informes 10-K.
En lugar de aplicar prompts a un modelo grande de extremo a extremo, los autores descomponen la tarea en tres pasos explícitos: un Extractor que identifica la evidencia numérica relevante del documento, un Razonador que escribe una expresión aritmética y un Ejecutor que ejecuta la expresión de forma determinista. Los datos de entrenamiento se generan automáticamente a partir de conjuntos de datos existentes anotados por expertos —FinQA, TAT-QA y TAT-DQA— anotando cada instancia con los pasos intermedios de extracción y razonamiento. El ajuste fino utiliza LoRA en tres escalas de LLaMA 2: 7B, 13B y 70B.
Ideas clave
- La descomposición del flujo de trabajo supera al modelo de extremo a extremo: El Ejecutor Externo (aritmética determinista) añade +16,66 puntos de EM en FinQA solo para el modelo 7B. La aritmética no es más difícil de realizar para el modelo; simplemente es catastróficamente poco fiable cuando se realiza en lenguaje natural.
- El modelo 7B supera a GPT-4 en los tres benchmarks: TAT-LLM 7B obtiene un 64,60% de EM en FinQA (frente al 63,91% de GPT-4), un 74,56% de EM en TAT-QA (frente al 71,92%) y un 69,45% de EM en TAT-DQA (frente al 64,46%). La brecha en TAT-DQA es la más convincente, con casi 5 puntos de diferencia.
- La extracción es el principal modo de fallo: El análisis de errores muestra que el 48% de los errores se remontan a una extracción de evidencia incorrecta: el modelo identifica la fila o columna equivocada, o lee mal un número debido a terminología financiera desconocida. Solo el 19% son operadores incorrectos.
- La escala ayuda moderadamente: La variante 70B entrenada de forma conjunta (TAT-LLM-All) eleva FinQA al 76,81% de EM y TAT-QA al 81,42% de F1, lo cual representa ganancias significativas. Sin embargo, el modelo 7B ya supera a GPT-4, lo que sugiere que la estructura del flujo de trabajo importa más que el recuento de parámetros.
- Los expertos humanos siguen estando muy por delante: En TAT-QA, el rendimiento humano es del 90,8% de F1; el mejor resultado de TAT-LLM es del 81,42% de F1. La brecha es real y el artículo lo reconoce.
Lo que se sostiene y lo que no
La contribución técnica principal es sólida: delegar la aritmética a un ejecutor determinista es obviamente la decisión correcta, y la ablación lo demuestra de forma decisiva. Esta es una lección bien conocida de PAL y trabajos similares, pero verla cuantificada aquí (+16,66 puntos) en un benchmark específico de finanzas es una validación valiosa.
De lo que soy más escéptico es de la afirmación principal de "superar a GPT-4". El margen en FinQA es de 0,69 puntos de EM, esencialmente dentro del margen de error, y las cifras de GPT-4 reflejan una evaluación zero-shot o con prompts ligeros, no a GPT-4 con cadena de pensamiento (chain-of-thought), ejemplos few-shot o su propio intérprete de código. Un GPT-4 con prompts que utilice herramientas de Python casi con seguridad superaría estas cifras. La comparación no es errónea, pero no es exactamente la historia de "la especialización gana" que implica el resumen.
También existe una preocupación significativa por la filtración en la evaluación. El modelo se ajusta en las divisiones de entrenamiento de FinQA, TAT-QA y TAT-DQA y se evalúa en sus divisiones de prueba. Ese es un entorno de distribución interna muy estrecho. El artículo no incluye una tarea de QA financiera externa que el modelo nunca haya visto durante el entrenamiento, por lo que la generalización a nuevos tipos de documentos o nuevos patrones aritméticos no está probada.
El límite de contexto de 4.096 tokens es un impedimento práctico para los informes financieros del mundo real. Un informe 10-K típico tiene más de 100 páginas; incluso un solo comunicado de resultados trimestrales a menudo supera los 4.096 tokens. El modelo, tal como se describe, no puede manejar las entradas para las que fue diseñado sin fragmentación (chunking), y el artículo no aborda cómo se degrada la extracción cuando la evidencia abarca múltiples fragmentos.
Por qué esto es importante para la IA en finanzas
La descomposición Extractor-Razonador-Ejecutor es directamente aplicable a los agentes de Beancount. Cuando un usuario pregunta "¿cuál fue mi gasto total en comida en el primer trimestre de 2025 en relación con el primer trimestre de 2024?", la estructura natural es: localizar las transacciones relevantes (Extraer), construir una expresión de agregación (Razonar), ejecutarla contra el libro mayor (Ejecutar). El análisis de errores de TAT-LLM hace una predicción concreta: el paso de extracción será donde un agente de Beancount fallará con más frecuencia —categorías de cuentas incorrectas, transacciones omitidas, importes mal leídos—, no la aritmética.
El enfoque de ajuste fino LoRA también es relevante para cualquiera que construya un modelo específico para Beancount. La estrategia de generación de datos de entrenamiento —tomar pares de QA anotados por expertos y anotarlos con pasos intermedios— es exactamente cómo se construiría un conjunto de datos de razonamiento específico para libros contables. Se tienen las entradas reales del libro mayor; se pueden generar tuplas de (pregunta, extracción, expresión, respuesta) automáticamente.
El límite de contexto es el mayor obstáculo. Un agente de Beancount en producción necesita razonar sobre años de entradas. El modelo del artículo no es eso; es una base sólida para QA de documentos cortos que necesita ampliarse con fragmentación, recuperación o una ventana de contexto más larga para volverse práctico.
Qué leer a continuación
- FinQA (arXiv:2109.00122, EMNLP 2021): el benchmark original sobre el que se evalúa TAT-LLM; leerlo aclara exactamente qué significa "razonamiento discreto sobre datos financieros" y cómo era el estado del arte anterior antes de los LLM.
- TAGOP (parte del artículo TAT-QA, arXiv:2105.07624, ACL 2021): el modelo de operador consciente de tablas que definió la tarea TAT-QA; comprender cómo es la selección de operadores basada en reglas proporciona un punto de referencia para lo que el paso del Razonador basado en LLM está reemplazando.
- AuditCopilot (arXiv:2512.02726): evalúa LLaMA y Gemma en la detección de anomalías en pruebas de asientos de diario (Journal Entry Test) sobre datos reales de libros mayores; la pregunta de seguimiento natural después de TAT-LLM es si el mismo enfoque de ajuste fino se transfiere a la detección de anomalías en lugar de a QA.
