Pular para o conteúdo principal

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

O DocFinQA é um artigo da ACL 2024 que pega o conjunto de dados FinQA existente e reapresenta cada pergunta juntamente com o arquivo completo da SEC de onde ela veio — expandindo o contexto médio de menos de 700 palavras para 123.000 palavras. Estou lendo-o porque ele testa diretamente o cenário que todo agente Beancount em produção enfrenta: não uma passagem extraída e organizada, mas o documento complexo e completo. Os resultados são preocupantes para quem planeja implantar modelos de contexto longo em livros-razão de vários anos.

O artigo

DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering e Chris Tanner (ACL 2024, Short Papers) — utiliza os 8.281 pares de perguntas e respostas do FinQA e aumenta 7.621 deles com o relatório anual completo da SEC do qual cada pergunta se originou. O resultado são 1.236 arquivos únicos divididos em 5.798 exemplos de treinamento, 791 de desenvolvimento e 1.032 de teste, com o contexto médio saltando 175×, de aproximadamente 700 palavras para 123.453 palavras.

2026-06-20-docfinqa-long-context-financial-reasoning-dataset

O conjunto de perguntas permanece inalterado — são as mesmas perguntas de raciocínio numérico de várias etapas que exigem programas em Python para serem respondidas. O que muda é que o modelo agora recebe o arquivo completo em vez de uma passagem de 700 palavras cuidadosamente selecionada por especialistas. A pesquisa compara duas famílias de abordagens: pipelines de recuperação clássicos (segmentar, classificar, responder) e os emergentes LLMs de contexto longo que tentam processar o documento completo de ponta a ponta.

Ideias principais

  • Melhor precisão do pipeline de recuperação no conjunto de teste: GPT-3.5 com 42,64%. Modelos de código aberto ficam bem atrás: Mistral/7B com 24,97%, CodeLlama/13B com 21,01%, MPT/30B com 18,07%.
  • O melhor codificador de recuperação — um ColBERT ajustado — atinge HR@1 = 0,35 e HR@3 = 0,55, o que significa que o trecho correto está ausente do contexto do modelo quase metade das vezes, mesmo ao recuperar três passagens.
  • GPT-4 de contexto longo (avaliado em uma subamostra de 400 perguntas): 46,5% em documentos curtos (≤100K tokens) contra 23,0% com uma estratégia de Resumir-e-Responder nos documentos mais longos (>100K tokens). O GPT-4 comete quase o dobro de erros em documentos longos em comparação com documentos curtos.
  • A análise de PDF específica para finanças (Kensho Extract) superou substancialmente a análise genérica de HTML (BeautifulSoup), particularmente na preservação de tabelas — uma descoberta prática para qualquer pipeline construído sobre arquivos da SEC.
  • Uma fração substancial dos trechos relevantes reside além da posição 250 do documento, o que significa que estratégias baseadas em truncamento descartam silenciosamente a evidência correta antes mesmo de o modelo vê-la.

O que se sustenta — e o que não

A contribuição empírica central é sólida: o conjunto de dados é uma extensão fiel do FinQA com metodologia bem definida (pontuação de similaridade de quatro gramas para identificar trechos de ouro, trechos de 2.750 caracteres com 20% de sobreposição), e a descoberta de que o desempenho se degrada severamente com o comprimento do documento é consistente tanto em abordagens de recuperação quanto de contexto longo. O quase dobramento dos erros do GPT-4 em documentos longos versus curtos é impressionante e difícil de ignorar.

O que o artigo não aborda totalmente é a fronteira dos modelos de contexto longo da safra de 2024. A avaliação de contexto longo cobre apenas 400 amostras, limitada pelo custo, e não testa o Gemini 1.5 Pro (janela de 1M de tokens) ou o Claude 3 (200K). Os hiperparâmetros de segmentação (chunking) são razoáveis, mas não sistematicamente testados, e a estratégia de múltiplas chamadas de Resumir-e-Responder provavelmente não é a melhor disponível — a recuperação intercalada do IRCoT e a síntese estruturada do StructRAG sugerem que existem abordagens melhores para a agregação de evidências de vários saltos (multi-hop) em documentos longos.

O ColBERT ajustado atingindo HR@3 = 0,55 revela o problema mais profundo: a recuperação em documentos financeiros longos é, por si só, um problema não resolvido. Mesmo com um modelo generativo perfeito, quase metade das consultas receberia uma resposta construída a partir das passagens erradas. O artigo expõe isso como a restrição limitante, mas para antes de quantificar o quanto a precisão se recupera quando a recuperação é feita de forma ideal (oracle).

Por que isso importa para a IA nas finanças

Livros-razão Beancount de vários anos não têm em média 123 mil palavras por padrão, mas uma década de transações com memorandos detalhados alcança isso facilmente, e um agente financeiro operando sobre relatórios anuais completos enfrenta exatamente esse regime. A compressão de "escolhemos a dedo as 700 palavras certas" (FinQA) para "aqui está o 10-Q completo" (DocFinQA) representa a lacuna entre um benchmark de brinquedo e a realidade da produção. O DocFinQA torna essa lacuna mensurável.

A queda de quase 50% na precisão do GPT-4 de documentos curtos para longos argumenta contra uma resposta simples de "basta usar uma janela de contexto maior". A recuperação continua necessária, mas é apenas 55% confiável no HR@3. Para um agente de gravação Beancount que precisa localizar um cronograma de depreciação enterrado em uma nota explicativa de um ano atrás, nenhuma arquitetura oferece a confiabilidade desejada antes de confirmar um lançamento contábil. A leitura honesta deste artigo: melhor recuperação, melhor agregação de evidências e avaliação explícita de falhas silenciosas — e não uma janela de contexto maior — são o que o campo realmente precisa.

O que ler a seguir

  • "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Fornece a explicação mecanística para o colapso da precisão posicional que o DocFinQA mede, com a agora canônica curva de desempenho em forma de U.
  • FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop. Um benchmark sucessor de 2025 com 5.703 trios de consulta-evidência-resposta projetados em torno de buscas financeiras profissionais realistas, incluindo abreviações e acrônimos que os recuperadores padrão perdem.
  • Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294. Um novo benchmark de arquivos da SEC que adiciona tarefas de rastreamento temporal além do QA de documento único, mais próximo do que um agente de auditoria Beancount realmente precisaria.