DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

20 de junho de 2026 · 6 min para ler

Mike Thrift

Marketing Manager

O DocFinQA é um artigo da ACL 2024 que pega o conjunto de dados FinQA existente e reapresenta cada pergunta juntamente com o arquivo completo da SEC de onde ela veio — expandindo o contexto médio de menos de 700 palavras para 123.000 palavras. Estou lendo-o porque ele testa diretamente o cenário que todo agente Beancount em produção enfrenta: não uma passagem extraída e organizada, mas o documento complexo e completo. Os resultados são preocupantes para quem planeja implantar modelos de contexto longo em livros-razão de vários anos.

O artigo

DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering e Chris Tanner (ACL 2024, Short Papers) — utiliza os 8.281 pares de perguntas e respostas do FinQA e aumenta 7.621 deles com o relatório anual completo da SEC do qual cada pergunta se originou. O resultado são 1.236 arquivos únicos divididos em 5.798 exemplos de treinamento, 791 de desenvolvimento e 1.032 de teste, com o contexto médio saltando 175×, de aproximadamente 700 palavras para 123.453 palavras.

2026-06-20-docfinqa-long-context-financial-reasoning-dataset

O conjunto de perguntas permanece inalterado — são as mesmas perguntas de raciocínio numérico de várias etapas que exigem programas em Python para serem respondidas. O que muda é que o modelo agora recebe o arquivo completo em vez de uma passagem de 700 palavras cuidadosamente selecionada por especialistas. A pesquisa compara duas famílias de abordagens: pipelines de recuperação clássicos (segmentar, classificar, responder) e os emergentes LLMs de contexto longo que tentam processar o documento completo de ponta a ponta.

Ideias principais

Melhor precisão do pipeline de recuperação no conjunto de teste: GPT-3.5 com 42,64%. Modelos de código aberto ficam bem atrás: Mistral/7B com 24,97%, CodeLlama/13B com 21,01%, MPT/30B com 18,07%.
O melhor codificador de recuperação — um ColBERT ajustado — atinge HR@1 = 0,35 e HR@3 = 0,55, o que significa que o trecho correto está ausente do contexto do modelo quase metade das vezes, mesmo ao recuperar três passagens.
GPT-4 de contexto longo (avaliado em uma subamostra de 400 perguntas): 46,5% em documentos curtos (≤100K tokens) contra 23,0% com uma estratégia de Resumir-e-Responder nos documentos mais longos (>100K tokens). O GPT-4 comete quase o dobro de erros em documentos longos em comparação com documentos curtos.
A análise de PDF específica para finanças (Kensho Extract) superou substancialmente a análise genérica de HTML (BeautifulSoup), particularmente na preservação de tabelas — uma descoberta prática para qualquer pipeline construído sobre arquivos da SEC.
Uma fração substancial dos trechos relevantes reside além da posição 250 do documento, o que significa que estratégias baseadas em truncamento descartam silenciosamente a evidência correta antes mesmo de o modelo vê-la.

O que se sustenta — e o que não

A contribuição empírica central é sólida: o conjunto de dados é uma extensão fiel do FinQA com metodologia bem definida (pontuação de similaridade de quatro gramas para identificar trechos de ouro, trechos de 2.750 caracteres com 20% de sobreposição), e a descoberta de que o desempenho se degrada severamente com o comprimento do documento é consistente tanto em abordagens de recuperação quanto de contexto longo. O quase dobramento dos erros do GPT-4 em documentos longos versus curtos é impressionante e difícil de ignorar.

O que o artigo não aborda totalmente é a fronteira dos modelos de contexto longo da safra de 2024. A avaliação de contexto longo cobre apenas 400 amostras, limitada pelo custo, e não testa o Gemini 1.5 Pro (janela de 1M de tokens) ou o Claude 3 (200K). Os hiperparâmetros de segmentação (chunking) são razoáveis, mas não sistematicamente testados, e a estratégia de múltiplas chamadas de Resumir-e-Responder provavelmente não é a melhor disponível — a recuperação intercalada do IRCoT e a síntese estruturada do StructRAG sugerem que existem abordagens melhores para a agregação de evidências de vários saltos (multi-hop) em documentos longos.

O ColBERT ajustado atingindo HR@3 = 0,55 revela o problema mais profundo: a recuperação em documentos financeiros longos é, por si só, um problema não resolvido. Mesmo com um modelo generativo perfeito, quase metade das consultas receberia uma resposta construída a partir das passagens erradas. O artigo expõe isso como a restrição limitante, mas para antes de quantificar o quanto a precisão se recupera quando a recuperação é feita de forma ideal (oracle).

Por que isso importa para a IA nas finanças

Livros-razão Beancount de vários anos não têm em média 123 mil palavras por padrão, mas uma década de transações com memorandos detalhados alcança isso facilmente, e um agente financeiro operando sobre relatórios anuais completos enfrenta exatamente esse regime. A compressão de "escolhemos a dedo as 700 palavras certas" (FinQA) para "aqui está o 10-Q completo" (DocFinQA) representa a lacuna entre um benchmark de brinquedo e a realidade da produção. O DocFinQA torna essa lacuna mensurável.

A queda de quase 50% na precisão do GPT-4 de documentos curtos para longos argumenta contra uma resposta simples de "basta usar uma janela de contexto maior". A recuperação continua necessária, mas é apenas 55% confiável no HR@3. Para um agente de gravação Beancount que precisa localizar um cronograma de depreciação enterrado em uma nota explicativa de um ano atrás, nenhuma arquitetura oferece a confiabilidade desejada antes de confirmar um lançamento contábil. A leitura honesta deste artigo: melhor recuperação, melhor agregação de evidências e avaliação explícita de falhas silenciosas — e não uma janela de contexto maior — são o que o campo realmente precisa.

O que ler a seguir

"Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Fornece a explicação mecanística para o colapso da precisão posicional que o DocFinQA mede, com a agora canônica curva de desempenho em forma de U.
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop. Um benchmark sucessor de 2025 com 5.703 trios de consulta-evidência-resposta projetados em torno de buscas financeiras profissionais realistas, incluindo abreviações e acrônimos que os recuperadores padrão perdem.
Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294. Um novo benchmark de arquivos da SEC que adiciona tarefas de rastreamento temporal além do QA de documento único, mais próximo do que um agente de auditoria Beancount realmente precisaria.

Share on Twitter Follow @beancount_io

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

O artigo

Ideias principais

O que se sustenta — e o que não

Por que isso importa para a IA nas finanças

O que ler a seguir

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico

O artigo​

Ideias principais​

O que se sustenta — e o que não​

Por que isso importa para a IA nas finanças​

O que ler a seguir​

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico

O artigo

Ideias principais

O que se sustenta — e o que não

Por que isso importa para a IA nas finanças

O que ler a seguir