MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas
Todos os benchmarks de QA financeiro que li este mês — FinQA, TAT-QA, ConvFinQA — baseiam-se na mesma suposição implícita: uma tabela plana por documento. Relatórios financeiros reais não se parecem em nada com isso. Balanços patrimoniais consolidados aninham subsidiárias dentro de segmentos e dentro de entidades controladoras; demonstrações de resultados contêm itens de linha hierárquicos com subtotais que, por sua vez, alimentam agregados superiores. O MultiHiertt (Zhao et al., ACL 2022) é o primeiro benchmark construído para expor exatamente essa lacuna, e os números resultantes são preocupantes.
O artigo
Yilun Zhao, Yunxiang Li, Chenying Li e Rui Zhang da Penn State apresentam o MultiHiertt, um benchmark de QA de 10.440 pares de perguntas e respostas extraídos de 2.513 relatórios financeiros reais. Cada documento possui em média 3,89 tabelas hierárquicas ao lado de 68 frases (~1.645 palavras) de texto narrativo. A divisão treino/validação/teste é 7.830 / 1.044 / 1.566. O argumento central é simples, mas direto: conjuntos de dados anteriores (FinQA, TAT-QA) avaliam modelos em documentos com uma única tabela plana, o que subestima sistematicamente a complexidade do raciocínio sobre documentos financeiros reais, onde uma pergunta pode exigir a síntese de números de três subtabelas separadas antes de aplicar um programa aritmético.
Junto com o conjunto de dados, os autores propõem o MT2Net, um modelo de dois estágios: um módulo de recuperação de fatos que pontua células candidatas de suporte e trechos de texto de todas as tabelas e parágrafos, seguido por um módulo de raciocínio simbólico (um executor de programa aritmético emprestado do design NeRd do FinQA) que opera sobre os fatos recuperados. O MT2Net utiliza o RoBERTa-large como seu codificador principal.
Ideias principais
- A média de 3,89 tabelas por documento do MultiHiertt reflete diretamente a estrutura real dos relatórios anuais, onde uma única pergunta pode exigir valores da demonstração de resultados, de uma tabela de detalhamento de segmento e de um cronograma de notas de rodapé — nenhum dos quais é plano.
- O MT2Net (RoBERTa-large) alcança 38,43% de F1 no conjunto de teste; especialistas humanos atingem 87,03% de F1 — uma lacuna de quase 49 pontos.
- Perguntas de raciocínio entre tabelas (exigindo evidências de ≥ 2 tabelas) pontuam 21,04% de F1 sob o melhor modelo, contra 36,77% para perguntas de tabela única — uma queda de mais de 15 pontos em relação a uma base já baixa.
- O módulo de raciocínio simbólico ajuda, mas não pode compensar falhas de recuperação: o estudo de anotação mostra que 31,5% dos erros em exemplos hierárquicos vêm da seleção das células de evidência erradas antes mesmo de qualquer aritmética ser tentada.
- Em 2024, o GPT-4 com prompting Program-of-Thoughts atinge 67,23% de F1 no MultiHiertt, e um método dedicado de EEDP (evidence-enhanced document prompting) eleva o GPT-4 para 70,32% — ainda 17 pontos abaixo do teto humano.
- A qualidade da anotação é sólida: Kappa inter-anotadores de 0,72–0,90, com 76,8%–94,0% das amostras classificadas com nota ≥ 4/5 para correção por trabalhadores de crowdsourcing.
O que se sustenta — e o que não se sustenta
A construção do conjunto de dados é cuidadosa e as métricas de qualidade de anotação são tranquilizadoras. A afirmação central — de que os benchmarks de tabela única subestimam a complexidade real — é obviamente verdadeira, e a lacuna de 15 pontos de F1 entre os subconjuntos de tabela única e múltipla torna isso concreto. A tabela de comparação (Tabela 1 no artigo) mostra claramente que o FinQA e o TAT-QA possuem uma tabela por documento; o MultiHiertt está genuinamente preenchendo uma lacuna real.
Dito isso, o MT2Net não é uma solução proposta forte — está mais próximo de uma baseline robusta. O módulo de recuperação é um pontuador de nível de trecho (span-level scorer) treinado com supervisão em fatos de suporte, o que significa que depende fortemente de ter um sinal de supervisão correto no momento do treinamento. O artigo não avalia o que acontece quando a estrutura hierárquica é implícita (sem aninhamento HTML pai-filho explícito), o que é comum em documentos digitalizados e PDFs mais antigos. O conjunto de teste está retido em um leaderboard do CodaLab, o que dificulta a replicação independente de resultados ou a investigação de modos de falha.
Também quero destacar algo que os autores subestimam: os resultados do GPT-4 de 2024 mostram que o poder bruto de raciocínio pode fechar grande parte da lacuna sem qualquer arquitetura projetada especificamente para hierarquia. O GPT-4 chega a 70% sem nunca ser informado de que o documento possui tabelas hierárquicas — ele apenas lê o HTML renderizado. Isso é, na verdade, uma descoberta interessante: a consciência da hierarquia pode importar menos do que a pura capacidade de contexto e a confiabilidade aritmética. A restrição vinculativa ainda pode ser a precisão da recuperação em documentos longos, não a arquitetura de raciocínio.
Por que isso importa para a IA financeira
Agentes do Beancount enfrentam exatamente este problema. Uma pergunta como "qual foi a nossa alíquota efetiva de imposto em 2023?" requer encontrar a linha de lucro antes dos impostos na demonstração de resultados, a despesa de imposto de renda de uma nota separada e, possivelmente, um detalhamento por segmento para reconciliar o valor consolidado. Nenhum desses dados vive em uma única tabela plana. A penalidade de 15 pontos de F1 para o raciocínio entre tabelas no MultiHiertt quantifica o que eu esperaria ver em um contexto de Beancount: agentes que parecem bons em consultas de conta única degradarão significativamente quando uma pergunta exigir a junção de várias seções do livro razão.
A análise de erro é diretamente aplicável. Se 31,5% dos erros são recuperações de evidências erradas antes de qualquer cálculo acontecer, então a prioridade para um agente de gravação do Beancount não é um motor aritmético melhor — é um seletor de evidências melhor. Um agente que recupera as linhas erradas do livro razão antes de fazer as contas produzirá lançamentos que parecem plausíveis, mas estão incorretos, exatamente o modo de falha mais difícil de detectar em uma auditoria.
A trajetória do GPT-4 também é encorajadora para o curto prazo: passar de 38% para 70% em dois anos sugere que o raciocínio financeiro multi-tabela é tratável à medida que as janelas de contexto e o raciocínio melhoram, mesmo sem treinamento específico do domínio. Mas a lacuna restante de 17 pontos para o desempenho humano não é ruído — provavelmente reflete casos em que a estrutura hierárquica carrega uma carga semântica que a renderização de texto plano perde.
O que ler a seguir
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — a base sobre a qual quase todo sistema de QA financeiro é construído; entender sua divisão de memória paramétrica vs. não paramétrica é importante para decidir como estruturar a recuperação do livro razão.
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — recupera no meio da geração quando o modelo prevê que precisa de novos fatos, o que é um ajuste natural para o raciocínio multi-tabela, onde você descobre no meio do raciocínio que precisa de uma tabela subsidiária.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — ajusta um LLM especificamente no FinQA/TAT-QA/MultiHiertt e mostra o que a adaptação de domínio realmente oferece em relação ao prompting do GPT-4.
