ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos
Depois de dedicar vários logs ao QA financeiro de turno único — FinQA, FinanceBench, TAT-QA — eu quis observar o que acontece quando os usuários fazem perguntas de acompanhamento. ConvFinQA (Chen et al., EMNLP 2022) é o artigo que pega o cenário do FinQA e o estende para conversas de múltiplos turnos, e os resultados expõem um modo de falha que os benchmarks de turno único simplesmente não conseguem ver: modelos que dominam o raciocínio numérico isolado frequentemente entram em colapso no momento em que uma pergunta faz referência a algo dito dois turnos atrás.
O artigo
ConvFinQA, de Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah e William Yang Wang (UC Santa Barbara e J.P. Morgan), constrói um conjunto de dados de 3.892 conversas de múltiplos turnos totalizando 14.115 perguntas sobre 2.066 páginas de relatórios financeiros. Cada conversa é baseada em relatórios de lucros — os mesmos arquivamentos do S&P 500 usados no FinQA — e as perguntas se encadeiam de modo que os turnos posteriores podem referenciar respostas anteriores. O formato da tarefa é herdado do FinQA: os modelos geram um programa em uma pequena linguagem de domínio específico (soma, subtração, multiplicação, divisão, maior que, exp) que é então executado para produzir a resposta. A avaliação utiliza a precisão de execução (se o resultado executado corresponde à resposta padrão) e a precisão do programa (se o programa gerado corresponde ao programa padrão).
O conjunto de dados possui dois tipos de conversa. As conversas "simples" do Tipo I decompõem uma única pergunta complexa do FinQA em uma sequência de subperguntas. As conversas "híbridas" do Tipo II concatenam decomposições de duas perguntas diferentes do FinQA sobre o mesmo relatório, forçando o raciocínio entre múltiplos aspectos. Mais de 60% das perguntas têm dependências de turnos anteriores, e as perguntas da segunda parte em conversas híbridas são substancialmente mais difíceis porque o modelo deve carregar o estado do raciocínio entre diferentes tópicos financeiros.
Ideias principais
- Melhor modelo ajustado (FinQANet com RoBERTa-large): 68,90% de precisão de execução no conjunto de teste. Especialistas financeiros humanos atingem 89,44%. Trabalhadores comuns (MTurk): 46,90% — uma lacuna impressionante que confirma que a tarefa exige conhecimento de domínio genuíno.
- GPT-3 (text-davinci-002, 175B) com 20 exemplos few-shot e fatos de suporte padrão-ouro: 50,30% de precisão de execução — bem abaixo do especialista ajustado e pouco acima do público comum.
- O prompting de cadeia de pensamento (CoT) prejudica o GPT-3: o CoT produz 40,63% contra 45,15% para o prompting de programa padrão. O modelo imita o formato de raciocínio dos exemplos fornecidos em vez de aplicá-lo à pergunta real.
- Conversas híbridas são substancialmente mais difíceis: a segunda parte de uma conversa híbrida marca 52,38% para o FinQANet contra 72,37% para conversas simples. A referência cruzada de múltiplos aspectos é onde os modelos atuais falham.
- O GPT-3 especificamente tem dificuldades com perguntas de seleção de números — respondendo a um acompanhamento como "e quanto ao ano anterior?" — atingindo apenas 35,32% onde o FinQANet alcança 82,54%. A resolução de anáfora conversacional é o gargalo.
O que se sustenta — e o que não
A construção do conjunto de dados é cuidadosa e a avaliação é limpa. Usar a precisão do programa ao lado da precisão de execução é valioso: dois programas podem produzir a mesma resposta numérica através de caminhos de raciocínio diferentes (possivelmente errados), e a precisão do programa detecta isso. A decisão de ancorar as conversas em arquivamentos reais do S&P 500 mantém a tarefa fundamentada em vez de sintética.
Dito isto, a variedade de conversas é limitada por design. Cada conversa é construída decompondo perguntas existentes do FinQA — não há diálogos verdadeiramente abertos, turnos de esclarecimento ou correções de usuários. Conversas contábeis reais incluem tudo isso. O conjunto de dados é uma aproximação controlada do raciocínio conversacional, não uma amostra naturalista.
A análise do GPT-3 envelheceu de forma peculiar. Na época da publicação (final de 2022), o GPT-3 atingindo menos de 50% parecia um resultado negativo significativo. Mas o artigo precede o GPT-4, e trabalhos subsequentes mostram que modelos mais capazes fecham grande parte dessa lacuna. A descoberta sobre o CoT — de que o prompting foi contraproducente — é interessante, mas pode ser específica do modelo: o CoT tende a funcionar melhor em modelos com maior capacidade de seguir instruções.
A avaliação também foca inteiramente na correção da resposta final e ignora a qualidade da cadeia de raciocínio intermediária. Isso importa porque um modelo pode gerar uma resposta numericamente correta através de um programa errado (o que a precisão do programa detecta parcialmente) ou um programa correto através de um raciocínio frágil que falharia sob uma leve paráfrase. O FinChain (2025) critica explicitamente isso, motivando uma alternativa focada na transparência. Para sistemas de produção, saber por que o modelo obteve a resposta certa é tão importante quanto saber que ele a obteve.
Por que isso importa para a IA financeira
Um agente Beancount atendendo a consultas de usuários raramente recebe uma única pergunta autocontida. Os usuários perguntam "quanto gastei em compras no mês passado?" e depois "como isso se compara ao mês anterior?" e então "isso é mais do que eu orcei?". Cada pergunta se baseia na anterior. O ConvFinQA é o benchmark publicado mais próximo desse padrão de interação, e seus números são preocupantes: mesmo com recuperação padrão-ouro, o melhor modelo disponível em 2022 deixou uma lacuna de ~21 pontos percentuais em relação ao desempenho de especialistas humanos, e a lacuna aumenta em perguntas de múltiplos aspectos.
A falha específica em conversas híbridas merece destaque. Quando um usuário muda de uma pergunta sobre receita para uma pergunta sobre despesas na mesma sessão, o modelo precisa carregar o contexto numérico enquanto redefine o foco tópico. É exatamente isso que um agente Beancount deve fazer em uma sessão de revisão de livro-razão de múltiplos turnos. A pontuação de 52,38% nesses turnos é um limite inferior direto de quão bem as abordagens atuais lidam com esse cenário.
A descoberta sobre o CoT também é praticamente útil: sugere que, ao estimular um modelo a raciocinar sobre dados financeiros em um ambiente de múltiplos turnos, a geração de programas estruturados pode ser mais confiável do que a cadeia de pensamento de forma livre, pelo menos para modelos no nível de capacidade do GPT-3. Modelos mais capazes podem não mostrar essa inversão — mas é uma hipótese a ser testada, não uma suposição a ser feita.
O que ler a seguir
- Acompanhamento ConvFinQA APOLLO (arXiv:2212.07249) — atinge o estado da arte no ConvFinQA usando amostragem negativa ciente de números e aprendizado por reforço baseado em consistência; vale a leitura para ver o que fechou a lacuna após o artigo original.
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) — delega a aritmética a um intérprete Python em vez de uma DSL; relatou uma melhoria de ~12% sobre o CoT em tarefas de QA financeiro e quase o estado da arte no ConvFinQA; conecta ideias de CodeAct diretamente ao raciocínio financeiro.
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — realiza a recuperação sob demanda durante a geração, em vez de uma única vez no início; diretamente relevante para o cenário de múltiplos turnos, onde o que o modelo precisa consultar muda a cada turno.
