Pular para o conteúdo principal

Prompting de Cadeia de Pensamento (Chain-of-Thought): Trade-offs de Precisão e Recall para IA Financeira

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Estou relendo o artigo de Chain-of-Thought de 2022 de Wei et al. (arXiv:2201.11903) com uma pergunta específica em mente: experimentos anteriores mostraram que o prompting de CoT melhorou a precisão, mas prejudicou o recall na detecção de anomalias financeiras. O artigo deve explicar o porquê — ou, pelo menos, me dar intuição mecânica suficiente para formular uma hipótese.

O artigo

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" de Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma e colegas (Google Brain) é o artigo que colocou o CoT no mapa. A ideia é simples: em vez de pedir a um modelo para pular direto para uma resposta, você mostra a ele alguns exemplos onde a resposta é precedida por um rastro de raciocínio escrito. O modelo então produz seu próprio rastro de raciocínio antes de responder.

O artigo testa isso em tarefas de aritmética (GSM8K, SVAMP, AQuA), senso comum (CommonsenseQA, StrategyQA) e raciocínio simbólico (concatenação de letras, cara ou coroa) em três modelos de linguagem de grande escala — PaLM 540B, GPT-3 175B e LaMDA 137B — e compara com o prompting few-shot padrão.

Ideias principais

  • GSM8K (problemas matemáticos de texto): o prompting padrão com o PaLM 540B obtém 17,9%; o CoT obtém 56,9%, um salto de 39 pontos. Este é um ganho impressionante em um benchmark difícil, e é o resultado principal pelo qual o artigo é justamente conhecido.
  • Concatenação de letras: padrão 7,6%, CoT 99,4%. Para manipulação simbólica pura, o CoT essencialmente resolve a tarefa em larga escala.
  • CommonsenseQA: padrão 78,1%, CoT 79,9%. Ganho mínimo. Tarefas que não exigem inferência de múltiplas etapas não se beneficiam muito.
  • Penhasco de escala: o CoT só ajuda de forma confiável em aproximadamente mais de 100 bilhões de parâmetros. Abaixo de ~10 bilhões, adicionar um rastro de raciocínio muitas vezes prejudica — o modelo produz "cadeias de pensamento fluentes, mas ilógicas", que o desviam ativamente.
  • Tarefas fáceis não mostram benefícios: no MAWPS SingleOp (aritmética de etapa única), o PaLM 540B pontuou 94,1% tanto com o prompting padrão quanto com o CoT. O overhead de raciocínio não agrega valor quando a tarefa não exige realmente inferência de múltiplas etapas.
  • Nenhuma garantia de correção: os autores são explícitos ao afirmar que um LLM pode produzir um rastro de raciocínio com aparência coerente que leva a uma resposta errada. O rastro e a resposta são gerados conjuntamente, e nenhum deles é verificado de forma independente.

O que se sustenta — e o que não

Os resultados empíricos se sustentam. Os ganhos no GSM8K são replicados em trabalhos subsequentes, o limite de escala corresponde ao que foi observado em outros lugares e os números de raciocínio simbólico são consistentes com o que se esperaria da mecânica de aprendizado em contexto (in-context learning). Este artigo fez ciência de verdade.

O que considero pouco explorado é a assimetria entre precisão e recall. Wei et al. mostram números de acurácia agregados — eles não detalham as taxas de falsos positivos versus falsos negativos. Mas se você pensar em como o CoT altera a distribuição de respostas, o mecanismo é sugestivo: o CoT induz o modelo a gerar e se comprometer com um caminho de raciocínio. Esse estreitamento do espaço de geração provavelmente aumenta a especificidade (precisão) em detrimento da cobertura (recall). O modelo produz menos respostas no geral, e as que produz tendem a ser melhor justificadas — mas ele pode ignorar respostas corretas que não se encaixam em uma narrativa passo a passo organizada. Para a detecção de anomalias em dados financeiros, onde a classe "anomalia" é rara e atípica por definição, este é exatamente o modo de falha que se esperaria.

O artigo também deixa a questão mecânica aberta. Os autores tomam o cuidado de não afirmar que o modelo está "realmente raciocinando" em qualquer sentido forte. Se o CoT elicia uma inferência genuína de múltiplas etapas ou um atalho sofisticado de correspondência de padrões que imita tal inferência, não está resolvido. Um relatório da Wharton de 2025 que testou modelos de raciocínio modernos (o3-mini, o4-mini) descobriu que instruções explícitas de CoT produziram apenas 2–3% de ganhos marginais e, às vezes, reduziram a "acurácia perfeita" ao desencadear erros em perguntas que o modelo teria respondido corretamente de outra forma. O limite de escala do artigo pode ter mudado à medida que os modelos se tornaram melhores em raciocínio implícito — mas o problema da variabilidade, onde o CoT introduz uma chance diferente de zero de descarrilar uma resposta que de outra forma seria correta, persiste.

Por que isso é importante para a IA financeira

Três conexões com a agenda do Bean Labs:

Primeiro, o problema de segurança de gravação (write-back safety). Um agente com prompting de CoT explicando seu raciocínio antes de realizar uma ação no livro-razão fornece uma trilha de auditoria — mas o rastro de raciocínio não é uma garantia de correção. O agente pode produzir uma explicação plausível para uma ação errada. Isso significa que mostrar aos usuários um rastro de raciocínio pode criar uma falsa confiança em vez de uma auditabilidade genuína.

Segundo, a assimetria na detecção de anomalias. Se o CoT aumenta a precisão, mas diminui o recall em tarefas de detecção de eventos raros, então para os casos de uso do Beancount — encontrar transações mal classificadas, sinalizar entradas duplicadas, identificar violações de políticas — usar o CoT de forma ingênua pode produzir menos alarmes falsos ao custo de perder problemas reais. Esse é, potencialmente, o trade-off errado. Um agente financeiro que explica com confiança por que não sinalizou algo suspeito é mais perigoso do que um que sinaliza excessivamente.

Terceiro, a dependência da escala. Se os agentes financeiros de produção forem executados em modelos menores por motivos de custo ou latência, os ganhos de CoT desaparecem — e podem se inverter. Qualquer avaliação de um agente financeiro baseado em CoT precisa ser feita na mesma escala de modelo usada em produção.

O que ler a seguir

  • "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — amostra vários caminhos de CoT e faz uma votação majoritária; aborda diretamente o problema da variância sinalizado por Wei et al.
  • "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — mostra que "Let's think step by step" (Vamos pensar passo a passo) sem nenhum exemplo também elicia raciocínio; testa o limite do que o CoT realmente precisa.
  • "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — ataca diretamente a questão mecânica que o artigo original deixa aberta.