Pular para o conteúdo principal

TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Após uma semana focada em recuperação e injeção de conhecimento, quis analisar o outro lado da questão: o que um ajuste fino (fine-tuning) direcionado realmente entrega quando a tarefa é bem definida? TAT-LLM (arXiv:2401.13223, ICAIF 2024) é uma das respostas mais diretas: ajustar o LLaMA 2 com um pipeline estruturado em benchmarks de QA (Question Answering) de tabelas e textos financeiros para superar o GPT-4. O detalhe, como sempre, está nas minúcias.

O artigo

2026-05-21-tat-llm-modelo-de-linguagem-especializado-raciocinio-discreto-tabular-textual

Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li e Tat-Seng Chua do NExT++ na NUS apresentam o TAT-LLM, um modelo LLaMA 2 ajustado para raciocínio discreto sobre dados híbridos tabulares e textuais. O problema central é responder a perguntas numéricas sobre relatórios financeiros — o tipo de pergunta que exige localizar uma linha específica em uma tabela, extrair dois valores e realizar uma operação aritmética de várias etapas para chegar a uma resposta. É exatamente o que humanos fazem ao ler formulários 10-K (relatórios anuais).

Em vez de usar prompts em um modelo grande de ponta a ponta, os autores decompõem a tarefa em três etapas explícitas: um Extrator que identifica as evidências numéricas relevantes no documento, um Raciocinador (Reasoner) que escreve uma expressão aritmética e um Executor que executa a expressão de forma determinística. Os dados de treinamento são gerados automaticamente a partir de conjuntos de dados existentes anotados por especialistas — FinQA, TAT-QA e TAT-DQA — anotando cada instância com as etapas intermediárias de extração e raciocínio. O ajuste fino utiliza LoRA em três escalas de LLaMA 2: 7B, 13B e 70B.

Ideias principais

  • A decomposição em pipeline supera o modelo de ponta a ponta: O Executor Externo (aritmética determinística) adiciona +16,66 pontos de EM no FinQA apenas para o modelo 7B. A aritmética não é mais difícil para o modelo — ela é apenas catastroficamente pouco confiável quando feita em linguagem natural.
  • 7B supera o GPT-4 nos três benchmarks: O TAT-LLM 7B atinge 64,60% de EM no FinQA (contra 63,91% do GPT-4), 74,56% de EM no TAT-QA (contra 71,92%) e 69,45% de EM no TAT-DQA (contra 64,46%). A diferença no TAT-DQA é a mais convincente, com quase 5 pontos de vantagem.
  • A extração é o principal modo de falha: A análise de erros mostra que 48% dos erros derivam da extração incorreta de evidências — o modelo identifica a linha errada, a coluna errada ou lê incorretamente um número devido à terminologia financeira desconhecida. Apenas 19% são causados por operadores incorretos.
  • A escala ajuda modestamente: A variante de 70B treinada conjuntamente (TAT-LLM-All) eleva o FinQA para 76,81% de EM e o TAT-QA para 81,42% de F1, ganhos significativos. No entanto, o modelo 7B já supera o GPT-4, sugerindo que a estrutura do pipeline importa mais do que a contagem de parâmetros.
  • Especialistas humanos continuam muito à frente: No TAT-QA, o desempenho humano é de 90,8% de F1; o melhor resultado do TAT-LLM é 81,42% de F1. A lacuna é real e o artigo a reconhece.

O que se sustenta — e o que não

A contribuição técnica principal é sólida: delegar a aritmética a um executor determinístico é obviamente a decisão correta, e a ablação prova isso de forma decisiva. Esta é uma lição bem conhecida do PAL e trabalhos similares, mas vê-la quantificada aqui (+16,66 pontos) em um benchmark específico de finanças é uma confirmação valiosa.

O que me deixa mais cético é a afirmação principal de "superar o GPT-4". A margem no FinQA é de 0,69 pontos de EM — essencialmente dentro da margem de erro, e os números do GPT-4 refletem uma avaliação zero-shot ou com prompts leves, não o GPT-4 com cadeia de pensamento (chain-of-thought), exemplos few-shot ou seu próprio interpretador de código. Um GPT-4 com prompt para uso de ferramenta Python quase certamente superaria esses números. A comparação não está errada, mas não é exatamente a história de "vitória por especialização" que o resumo sugere.

Há também uma preocupação significativa de vazamento de avaliação. O modelo é ajustado em divisões de treinamento do FinQA, TAT-QA e TAT-DQA e avaliado em suas divisões de teste. Esse é um cenário restrito de dados dentro da distribuição. O artigo não inclui uma tarefa de QA financeiro isolada que o modelo nunca tenha visto durante o treinamento, portanto, a generalização para novos tipos de documentos ou novos padrões aritméticos não foi comprovada.

O limite de contexto de 4.096 tokens é um impedimento prático para relatórios financeiros do mundo real. Um formulário 10-K típico tem mais de 100 páginas; até mesmo um único comunicado de resultados trimestrais frequentemente excede 4.096 tokens. O modelo, conforme descrito, não consegue lidar com os inputs para os quais foi projetado sem fragmentação (chunking), e o artigo não aborda como a extração se degrada quando a evidência abrange vários fragmentos.

Por que isso importa para a IA em finanças

A decomposição Extrator-Raciocinador-Executor é diretamente aplicável a agentes Beancount. Quando um usuário pergunta "qual foi meu gasto total com alimentação no primeiro trimestre de 2025 em relação ao primeiro trimestre de 2024?", a estrutura natural é: localizar as transações relevantes (Extrair), construir uma expressão de agregação (Raciocinar), executá-la contra o livro-razão (Executar). A análise de erros do TAT-LLM faz uma previsão concreta: a etapa de extração será onde um agente Beancount falhará com mais frequência — categorias de contas erradas, transações perdidas, valores lidos incorretamente — não a aritmética.

A abordagem de ajuste fino com LoRA também é relevante para quem está construindo um modelo específico para Beancount. A estratégia de geração de dados de treinamento — pegar pares de QA anotados por especialistas e anotá-los com etapas intermediárias — é exatamente como você construiria um conjunto de dados de raciocínio específico para contabilidade. Você tem os lançamentos reais do livro-razão; pode gerar tuplas (pergunta, extração, expressão, resposta) automaticamente.

O limite de contexto é o maior bloqueio. Um agente Beancount de produção precisa raciocinar sobre anos de lançamentos. O modelo do artigo não é isso; é uma base forte para QA em documentos curtos que precisa ser estendida com fragmentação, recuperação ou uma janela de contexto maior para se tornar prática.

O que ler a seguir

  • FinQA (arXiv:2109.00122, EMNLP 2021) — o benchmark original no qual o TAT-LLM é avaliado; lê-lo esclarece exatamente o que significa "raciocínio discreto sobre dados financeiros" e como era o estado da arte anterior antes dos LLMs.
  • TAGOP (parte do artigo TAT-QA, arXiv:2105.07624, ACL 2021) — o modelo de operador ciente de tabelas que definiu a tarefa TAT-QA; entender como é a seleção de operadores baseada em regras fornece um ponto de referência para o que a etapa do Raciocinador baseada em LLM está substituindo.
  • AuditCopilot (arXiv:2512.02726) — avalia LLaMA e Gemma na detecção de anomalias em Testes de Lançamentos de Diário (Journal Entry Test) sobre dados reais de livros-razão; a pergunta natural após o TAT-LLM é se a mesma abordagem de ajuste fino se transfere para a detecção de anomalias em vez de QA.