Pular para o conteúdo principal

TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Lendo o TAT-QA hoje porque ele está em uma interseção que importa diretamente para o que estamos construindo: perguntas que só podem ser respondidas raciocinando através de uma tabela e do texto ao redor simultaneamente. No Beancount, cada entrada do livro-razão existe em contexto — uma linha de tabela que não faz sentido sem o histórico (memo), a narrativa da contraparte ou a política da conta que explica por que aquele item de linha está lá. O TAT-QA, publicado na ACL 2021 por Zhu et al. do laboratório NExT++ da NUS, é o benchmark que forçou a comunidade de PLN a enfrentar esse problema de frente.

O artigo

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng e Tat-Seng Chua apresentam o TAT-QA (Tabular And Textual QA), um conjunto de dados de 16.552 perguntas sobre 2.757 contextos híbridos extraídos de relatórios anuais financeiros reais. Cada contexto combina uma tabela semiestruturada com pelo menos dois parágrafos acompanhantes — exatamente a estrutura encontrada em arquivamentos 10-K, onde uma tabela de receitas fica ao lado da discussão da gerência sobre o que impulsionou os números. Quase todas as perguntas exigem aritmética: adição, subtração, multiplicação, divisão, contagem, comparação, ordenação e composições de múltiplas operações.

A contribuição principal é dupla: o benchmark em si e o TAGOP, um novo modelo que trata a tarefa como uma marcação de evidências seguida de raciocínio simbólico. O TAGOP usa um etiquetador de sequência sobre as células da tabela e trechos de texto concatenados para identificar quais peças de evidência coletar, e então aplica um conjunto fixo de operadores de agregação (soma, diferença, produto, razão, contagem, etc.) para calcular a resposta final. Não há aritmética neural — o cálculo em si é sempre delegado a um executor simbólico.

Ideias-chave

  • A identificação de evidências é a parte difícil, não a aritmética. A análise de erros do TAGOP atribui cerca de 55% das falhas a marcações incorretas e 29% a evidências ausentes. Uma vez que você tem as células e trechos corretos, o executor simbólico raramente comete um erro de computação. Este é um sinal direto: para agentes financeiros, a etapa de recuperação e embasamento (grounding) domina.
  • Modelos apenas de texto falham imediatamente. O BERT-RC consegue apenas 18,7% de F1 no conjunto de teste. O NumNet+ V2, o melhor leitor numérico pré-TAT-QA, atinge 46,9% de F1. A linha de base TaPas, apenas para tabelas, marca 22,8% de F1. Um modelo que lê tabelas sem texto — ou texto sem tabelas — está desqualificado para este domínio.
  • O TAGOP marca 58,0% de F1 (50,1% de correspondência exata), enquanto especialistas humanos marcam 90,8% de F1 (84,1% de EM). A lacuna de 32,8 pontos de F1 na época da publicação era alarmante. Significava que mesmo o melhor sistema de 2021 respondia a menos de dois terços das perguntas que um analista treinado consegue resolver.
  • No final de 2024, o ranking conta uma história diferente. O sistema de ponta, TAT-LLM (70B), atinge 88,4% de F1 — apenas 2,4 pontos abaixo do humano. O TAT-LLM (7B) alcança 82,88% de F1, e o GPT-4 em zero-shot atinge 79,71% de F1. A lacuna fechou drasticamente, principalmente através de ajuste fino (fine-tuning) em escala de LLM.
  • O ajuste fino especializado ainda supera o GPT-4 puro. O TAT-LLM 7B (74,56% de EM) supera o GPT-4 zero-shot (71,92% de EM) no TAT-QA, mesmo com uma fração da contagem de parâmetros. O pipeline em etapas Extrator→Raciocinador→Executor usado pelo TAT-LLM espelha a intuição do TAGOP, mas substitui o etiquetador simbólico por um LLM com prompts.

O que se sustenta — e o que não

O benchmark utiliza dados reais, perguntas reais e relatórios financeiros reais. Essa credibilidade é seu maior trunfo. A lacuna de 32 pontos entre humanos e modelos na publicação era genuína e o conjunto de dados é difícil o suficiente para que, mesmo cinco anos depois, os melhores sistemas ainda não a tenham fechado totalmente.

O que me preocupa é a suposição de tabela única. Cada contexto do TAT-QA contém exatamente uma tabela. Relatórios anuais reais contêm dezenas, frequentemente com relacionamentos hierárquicos entre segmentos, subsidiárias e períodos de tempo. Um modelo que consegue responder perfeitamente às perguntas do TAT-QA ainda não está preparado para a consolidação cruzada de tabelas que domina o trabalho contábil real. O artigo MMQA (ICLR 2025) aponta exatamente isso — que benchmarks de tabela única como o TAT-QA subestimam a complexidade multi-tabela enfrentada pelos profissionais.

A distribuição dos tipos de resposta também não é tão difícil quanto parece na prática. Cerca de 42% das respostas do TAT-QA são trechos únicos — extrações diretas que não exigem cálculo. As desafiadoras composições de múltiplas operações são uma minoria. Um modelo que acertasse todas as extrações e errasse toda a aritmética ainda pontuaria algo entre 30 e 40%. O benchmark não atribui pesos pela dificuldade, o que achata o sinal dos casos de raciocínio verdadeiramente difíceis.

Finalmente, a linha de base humana (90,8% de F1) foi calculada usando anotadores que tinham acesso ao documento, mas que podem não ter sido especialistas de nível CPA (Contador Público Certificado). Para o raciocínio de livros-razão na escala Beancount — onde um agente deve entender a política contábil, não apenas a aritmética — 90,8% pode ser uma superestimativa do teto "correto".

Por que isso importa para a IA financeira

O TAT-QA é o benchmark público mais próximo do que um agente Beancount enfrenta diariamente: dados de entrada estruturados (tabela) ao lado de uma narrativa não estruturada (histórico, descrição, nota de política). O resultado do TAGOP confirma o que eu esperaria ao construir ferramentas de contabilidade — o embasamento é mais difícil do que a computação. O problema é conseguir marcar as células corretas; somá-las é trivial.

A trajetória do ranking é encorajadora para o produto: um modelo de 7B parâmetros ajustado para este domínio supera o GPT-4 zero-shot, o que sugere que um modelo Beancount ajustado especificamente poderia lidar com a carga de trabalho de recuperação+aritmética sem precisar de chamadas de API de modelos de fronteira para cada consulta ao livro-razão. Latência, custo e privacidade de dados melhoram se pudermos executar um especialista compacto localmente.

A limitação de tabela única é a lacuna direta a ser fechada pelo Bean Labs. Os livros-razão do Beancount são, efetivamente, documentos multi-tabela — lançamentos de conta, linhas de orçamento, notas de reconciliação — e o benchmark que captura essa estrutura de múltiplos saltos em tabelas relacionadas ainda não existe plenamente. O artigo MultiHiertt (ACL 2022) é o que mais se aproxima; é o próximo artigo na minha lista.

O que ler a seguir

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — aborda diretamente a limitação de tabela única do TAT-QA; as perguntas exigem raciocínio em múltiplas tabelas hierárquicas dentro do mesmo documento financeiro, mais próximo do que parecem as demonstrações consolidadas.
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — estende o FinQA para diálogos de múltiplos turnos; os modelos devem rastrear o contexto numérico contínuo ao longo dos turnos de perguntas, o que mapeia como um agente Beancount lida com consultas de acompanhamento sobre uma sessão do livro-razão.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — a sequência direta do mesmo grupo NExT++; mostra como o LLaMA-2 ajustado com um pipeline Extrator→Raciocinador→Executor supera o GPT-4 zero-shot no TAT-QA e no FinQA.