Salta al contingut principal

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Llegeixo TAT-QA avui perquè se situa en una intersecció que importa directament al que estem construint: preguntes que només es poden respondre raonant a través d'una taula i el text que l'envolta simultàniament. En Beancount, cada entrada del llibre major existeix en un context: una fila de taula que no té sentit sense el memoràndum, la narrativa de la contrapart o la política del compte que explica per què aquesta partida és allà. TAT-QA, publicat a l'ACL 2021 per Zhu et al. del laboratori NExT++ de la NUS, és el benchmark que va obligar la comunitat de PLN a afrontar aquest problema directament.

L'article

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng i Tat-Seng Chua presenten TAT-QA (Tabular And Textual QA), un conjunt de dades de 16.552 preguntes sobre 2.757 contextos híbrids extrets d'informes anuals financers reals. Cada context combina una taula semiestructurada amb almenys dos paràgrafs adjunts, exactament l'estructura que es troba en els informes 10-K, on una taula d'ingressos es troba al costat de la discussió de la direcció sobre què ha impulsat les xifres. Gairebé totes les preguntes requereixen aritmètica: suma, resta, multiplicació, divisió, recompte, comparació, ordenació i composicions de múltiples operacions.

La contribució principal és doble: el benchmark en si i TAGOP, un nou model que tracta la tasca com una etiqueta d'evidència seguida d'un raonament simbòlic. TAGOP utilitza un etiquetador de seqüències sobre les cel·les de la taula i els fragments de text concatenats per identificar quines peces d'evidència recollir, i després aplica un conjunt fix d'operadors d'agregació (suma, diferència, producte, ràtio, recompte, etc.) per calcular la resposta final. Sense aritmètica neuronal: el càlcul en si mateix es delega sempre a un executor simbòlic.

Idees clau

  • La identificació de l'evidència és la part difícil, no l'aritmètica. L'anàlisi d'errors de TAGOP atribueix aproximadament el 55% dels errors a un etiquetatge incorrecte i el 29% a l'evidència absent. Un cop tens les cel·les i els fragments correctes, l'executor simbòlic rarament comet un error de càlcul. Aquesta és una senyal directe: per als agents financers, domina el pas de recuperació i fonamentació.
  • Els models només de text fallen immediatament. BERT-RC només assoleix un F1 del 18,7% en el conjunt de prova. NumNet+ V2, el millor lector numèric anterior a TAT-QA, arriba al 46,9% de F1. El model base TaPas, només de taules, obté un 22,8% de F1. Un model que llegeix taules sense text —o text sense taules— queda desqualificat en aquest domini.
  • TAGOP obté un 58,0% de F1 (50,1% de coincidència exacta), mentre que els experts humans obtenen un 90,8% de F1 (84,1% de CE). La bretxa de 32,8 punts de F1 en el moment de la publicació era alarmant. Significava que fins i tot el millor sistema de 2021 responia a menys de dos terços de les preguntes que un analista format pot gestionar.
  • A finals de 2024, la classificació explica una història diferent. El sistema principal, TAT-LLM (70B), arriba al 88,4% de F1, només 2,4 punts per sota de l'humà. TAT-LLM (7B) assoleix el 82,88% de F1, i GPT-4 en zero-shot arriba al 79,71% de F1. La bretxa s'ha tancat dràsticament, principalment mitjançant l'ajustament fi a escala de LLM.
  • L'ajustament fi especialitzat encara guanya el GPT-4 pur. TAT-LLM 7B (74,56% CE) supera el GPT-4 zero-shot (71,92% CE) a TAT-QA, fins i tot amb una fracció del recompte de paràmetres. El flux per passos Extractor→Raonador→Executor que utilitza TAT-LLM reflecteix la intuïció de TAGOP però substitueix l'etiquetador simbòlic per un LLM amb indicacions.

Què es manté i què no

El benchmark són dades reals, preguntes reals, informes financers reals. Aquesta credibilitat és el seu actiu més gran. La bretxa de 32 punts entre humans i models en el moment de la publicació era genuïna i el conjunt de dades és prou difícil perquè, fins i tot cinc anys després, els millors sistemes no l'hagin tancat del tot.

El que em preocupa és la hipòtesi de la taula única. Cada context de TAT-QA conté exactament una taula. Els informes anuals reals en contenen desenes, sovint amb relacions jeràrquiques entre segments, filials i períodes de temps. Un model que pugui respondre perfectament les preguntes de TAT-QA encara no està preparat per a la consolidació entre taules que domina el treball comptable real. L'article de MMQA (ICLR 2025) planteja precisament aquest punt: que els benchmarks d'una sola taula com TAT-QA subestimen la complexitat multitaula a la qual s'enfronten els professionals.

La distribució dels tipus de resposta tampoc és tan difícil com sembla a la pràctica. Al voltant del 42% de les respostes de TAT-QA són fragments únics: extraccions directes que no requereixen cap càlcul. Les composicions desafiants de múltiples operacions són una minoria. Un model que encerti totes les extraccions i falli tota l'aritmètica encara obtindria una puntuació d'entre el 30 i el 40%. El benchmark no pondera per dificultat, la qual cosa aplana el senyal dels casos de raonament realment difícils.

Finalment, la línia base humana (90,8% de F1) es va calcular utilitzant anotadors que tenien accés al document però que potser no eren experts de nivell comptable (CPA). Per al raonament de llibres majors a escala de Beancount —on un agent ha d'entendre la política comptable, no només l'aritmètica—, el 90,8% pot ser una sobreestimació del sostre "correcte".

Per què això és important per a la IA financera

TAT-QA és el benchmark públic més proper al que un agent de Beancount s'enfronta diàriament: dades d'entrada estructurades (taula) al costat d'una narrativa no estructurada (memoràndum, descripció, nota de política). El resultat de TAGOP confirma el que m'esperaria de la construcció d'eines de llibre major: la fonamentació és més difícil que el càlcul. El problema és aconseguir que s'etiquetin les cel·les correctes; sumar-les és trivial.

La trajectòria de la classificació és encoratjadora per al producte: un model de 7B de paràmetres ajustat en aquest domini supera el GPT-4 zero-shot, la qual cosa suggereix que un model ajustat específicament per a Beancount podria gestionar la càrrega de treball de recuperació + aritmètica sense necessitar crides a l'API de models d'última generació per a cada consulta del llibre major. La latència, el cost i la privadesa de les dades milloren si podem executar un especialista compacte localment.

La limitació d'una sola taula és la bretxa directa a tancar per a Bean Labs. Els llibres majors de Beancount són efectivament documents multitaula —apunts de comptes, línies de pressupost, notes de conciliació— i el benchmark que capturi aquesta estructura de múltiples salts a través de taules relacionades encara no existeix completament. MultiHiertt (ACL 2022) és el més semblant; és el següent article a la meva llista.

Què llegir a continuació

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — aborda directament la limitació de taula única de TAT-QA; les preguntes requereixen un raonament a través de múltiples taules jeràrquiques dins del mateix document financer, més proper a l'aspecte dels estats comptables consolidats.
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — amplia FinQA al diàleg de múltiples torns; els models han de fer un seguiment del context numèric actual a través dels torns de preguntes, la qual cosa s'ajusta a com un agent de Beancount gestiona les consultes de seguiment sobre una sessió del llibre major.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — el seguiment directe del mateix grup NExT++; mostra com LLaMA-2 ajustat amb un flux Extractor→Raonador→Executor supera el GPT-4 zero-shot a TAT-QA i FinQA.