TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers
Després d'una setmana dedicada a la recuperació i la injecció de coneixement, volia analitzar l'altra cara de la moneda: què aporta realment l'ajustament específic quan la tasca està ben definida? TAT-LLM (arXiv:2401.13223, ICAIF 2024) ofereix una de les respostes més clares: ajustar LLaMA 2 amb un pipeline estructurat en referents de preguntes i respostes (QA) sobre taules i textos financers i superar GPT-4. El truc, com és habitual, es troba en els detalls.
L'article
Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li i Tat-Seng Chua de NExT++ a la NUS presenten TAT-LLM, un model LLaMA 2 ajustat per al raonament discret sobre dades híbrides tabulars i textuals. El problema central és respondre preguntes numèriques sobre informes financers —el tipus de pregunta que requereix localitzar una fila específica en una taula, extreure dues xifres i realitzar una operació aritmètica de diversos passos per arribar a una resposta. Això és exactament el que fan els humans quan llegeixen presentacions 10-K.
En lloc d'utilitzar un model gran de punta a punta, els autors descomponen la tasca en tres passos explícits: un Extractor que identifica l'evidència numèrica rellevant del document, un Raonador que escriu una expressió aritmètica i un Executor que executa l'expressió de manera determinista. Les dades d'entrenament es generen automàticament a partir de conjunts de dades existents anotats per experts —FinQA, TAT-QA i TAT-DQA— anotant cada instància amb els passos intermedis d'extracció i raonament. L'ajustament utilitza LoRA en tres escales de LLaMA 2: 7B, 13B i 70B.
Idees clau
- La descomposició del pipeline supera el model de punta a punta: L'Executor Extern (aritmètica determinista) afegeix +16,66 punts EM només al model 7B a FinQA. L'aritmètica no és més difícil per al model —simplement és catastròficament poc fiable quan es realitza en llenguatge natural.
- 7B supera GPT-4 en els tres referents: TAT-LLM 7B obté un 64,60% d'EM a FinQA (davant del 63,91% de GPT-4), un 74,56% d'EM a TAT-QA (davant del 71,92%) i un 69,45% d'EM a TAT-DQA (davant del 64,46%). La diferència a TAT-DQA és la més convincent amb gairebé 5 punts.
- L'extracció és el principal mode de fallada: L'anàlisi d'errors mostra que el 48% dels errors es deuen a una extracció d'evidència incorrecta —el model identifica la fila o columna equivocada, o llegeix malament un número a causa d'una terminologia financera desconeguda. Només el 19% són operadors incorrectes.
- L'escala ajuda moderadament: La variant 70B entrenada conjuntament (TAT-LLM-All) eleva FinQA al 76,81% d'EM i TAT-QA al 81,42% de F1, que són guanys significatius. Però el model 7B ja supera GPT-4, cosa que suggereix que l'estructura del pipeline és més important que el recompte de paràmetres.
- Els experts humans segueixen estant molt per davant: A TAT-QA, el rendiment humà és del 90,8% de F1; el millor resultat de TAT-LLM és del 81,42% de F1. La bretxa és real i l'article ho reconeix.
Què se sosté — i què no
La contribució tècnica principal és sòlida: delegar l'aritmètica a un executor determinista és òbviament la decisió correcta, i l'ablació ho demostra de manera decisiva. Aquesta és una lliçó ben coneguda de PAL i treballs similars, però veure-la quantificada aquí (+16,66 punts) en un referent específic de finances és una confirmació valuosa.
Sóc més escèptic respecte a l'afirmació principal de "superar GPT-4". El marge a FinQA és de 0,69 punts EM —essencialment dins del marge de soroll— i les xifres de GPT-4 reflecteixen una avaluació de zero-shot o amb pocs indicadors, no GPT-4 amb cadena de pensament, exemples de few-shot o el seu propi intèrpret de codi. Un GPT-4 amb l'ús d'eines de Python gairebé segur que superaria aquestes xifres. La comparació no és errònia, però no és exactament la història de "l'especialització guanya" que implica el resum.
També hi ha una preocupació significativa per la filtració de l'avaluació. El model s'ajusta en particions d'entrenament de FinQA, TAT-QA i TAT-DQA i s'avalua en les seves particions de prova. Es tracta d'un entorn in-distribution estret. L'article no inclou una tasca de QA financera reservada que el model no hagi vist mai durant l'entrenament, per la qual cosa la generalització a nous tipus de documents o nous patrons aritmètics no està provada.
El límit de context de 4.096 tokens és un obstacle pràctic per als informes financers del món real. Un 10-K típic té més de 100 pàgines; fins i tot un sol comunicat de resultats trimestrals sol superar els 4.096 tokens. El model descrit no pot gestionar les entrades per a les quals va ser dissenyat sense fragmentació, i l'article no aborda com es degrada l'extracció quan l'evidència abasta diversos fragments.
Per què això és important per a la IA en finances
La descomposició Extractor-Raonador-Executor és directament aplicable als agents de Beancount. Quan un usuari pregunta "quina ha estat la meva despesa total en menjar al primer trimestre del 2025 en comparació amb el primer trimestre del 2024?", l'estructura natural és: localitzar les transaccions rellevants (Extreure), crear una expressió d'agregació (Raonar), executar-la contra el llibre major (Executar). L'anàlisi d'errors de TAT-LLM fa una predicció concreta: el pas d'extracció serà on un agent de Beancount fallarà més sovint —categories de comptes incorrectes, transaccions omeses, imports mal llegits—, no l'aritmètica.
L'enfocament d'ajustament LoRA també és rellevant per a qualsevol persona que construeixi un model específic per a Beancount. L'estratègia de generació de dades d'entrenament —agafar parelles de QA anotades per experts i anotar-les amb passos intermedis— és exactament com es construiria un conjunt de dades de raonament específic per a llibres majors. Teniu els assentaments del llibre major reals; podeu generar tuples de (pregunta, extracció, expressió, resposta) automàticament.
El límit de context és el major bloqueig. Un agent de Beancount en producció ha de raonar sobre anys d'assentaments. El model de l'article no és això; és una base sòlida en QA de documents curts que cal ampliar amb fragmentació, recuperació o una finestra de context més llarga per arribar a ser pràctic.
Què llegir a continuació
- FinQA (arXiv:2109.00122, EMNLP 2021) — el referent original sobre el qual s'avalua TAT-LLM; llegir-lo aclareix exactament què significa "raonament discret sobre dades financeres" i com era l'estat de l'art anterior abans dels LLM.
- TAGOP (part de l'article TAT-QA, arXiv:2105.07624, ACL 2021) — el model d'operador conscient de les taules que va definir la tasca TAT-QA; entendre com és la selecció d'operadors basada en regles ofereix un punt de referència per al que el pas del Raonador basat en LLM està substituint.
- AuditCopilot (arXiv:2512.02726) — avalua LLaMA i Gemma en la detecció d'anomalies en proves d'assentaments comptables sobre dades de llibres majors reals; la pregunta natural després de TAT-LLM és si el mateix enfocament d'ajustament es pot transferir a la detecció d'anomalies en lloc de la QA.
