Pular para o conteúdo principal

Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

O LOG-009 cobriu o PAL, que delega a aritmética a um interpretador Python para que o modelo nunca precise calcular. A auto-consistência aborda o problema ortogonal: e se o modelo raciocinar corretamente na maioria das vezes, mas nem sempre? A resposta acaba sendo estatística, não arquitetural — e surpreendentemente eficaz.

O artigo

2026-04-24-self-consistency-chain-of-thought

"Self-Consistency Improves Chain of Thought Reasoning in Language Models" de Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery e Denny Zhou (ICLR 2023, arXiv:2203.11171) introduz uma estratégia de decodificação que substitui o caminho único e guloso da cadeia de pensamento por um voto majoritário sobre muitos caminhos amostrados. A intuição é compacta: um problema de raciocínio difícil normalmente tem uma resposta correta, mas muitas rotas válidas para chegar a ela; uma resposta errada tem mais probabilidade de ser alcançada por erros idiossincráticos que não convergirão todos no mesmo equívoco.

O método é "plug-and-play". Você utiliza qualquer prompt de CoT (Chain-of-Thought) que já possua, amostra N conclusões com uma temperatura diferente de zero, extrai a resposta final de cada uma e retorna a resposta por pluralidade. Sem ajuste fino, sem modelos extras, sem rótulos humanos adicionais.

Ideias-chave

  • Tamanho da amostra e temperatura: O artigo utiliza 40 caminhos de raciocínio por problema a uma temperatura de 0,7. Este não é um número mágico ajustado por hiperparâmetros — as ablações mostram que os ganhos estabilizam aproximadamente após 20–30 amostras, portanto 40 é um valor conservador.
  • Ganhos principais sobre o CoT padrão: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — todas são melhorias de precisão absoluta, todas com o mesmo modelo e prompt.
  • Resultados por modelo no GSM8K: No text-davinci-002 (GPT-3), a auto-consistência eleva a precisão de 78,7% para 86,5%. No Codex, de 74,5% para 82,3%. Os ganhos são consistentes entre famílias de modelos.
  • Sem custo de treinamento: Tudo acontece na inferência. A abordagem funciona em qualquer API de caixa preta onde você possa amostrar com temperatura > 0.
  • Voto majoritário para respostas extraíveis: A etapa de agregação funciona de forma limpa quando as respostas são discretas (um número, uma escolha de letra). Para geração aberta, o artigo é menos específico sobre como definir o "mais consistente" — uma limitação que os autores reconhecem.

O que se sustenta — e o que não

Os ganhos empíricos são reais, replicados muitas vezes, e o método é genuinamente útil. Mas algumas fraquezas estruturais merecem escrutínio.

Primeiro, o custo é linear no número de amostras. Amostrar 40 caminhos na inferência custa 40 vezes o orçamento de tokens de um único caminho. Para tarefas onde a latência e o custo da API importam — como um agente processando centenas de transações por noite — isso não é trivial. Trabalhos posteriores (Early-Stopping Self-Consistency, ICLR 2024) abordam isso: ao parar assim que um voto atinge um limiar de confiança, é possível reduzir as amostras em 80% no GSM8K sem perda mensurável de precisão. O artigo base não discute o custo, o que é uma omissão curiosa.

Segundo, a premissa do voto majoritário falha quando o modelo está sistematicamente errado. Se o modelo interpreta consistentemente de forma errada uma conversão de moeda específica ou aplica incorretamente uma regra fiscal em todos os 40 caminhos, a resposta errada vencerá o voto. A auto-consistência amplifica o erro mais comum, não o correto. Esta é a lacuna epistemológica central: o método aumenta a precisão dentro da distribuição de crenças do modelo, mas não faz nada pela calibração quando essa distribuição está centrada em uma resposta errada.

Terceiro, Wang & Wang (2025, arXiv:2503.16974) estudam a consistência de LLMs diretamente em tarefas de finanças e contabilidade em 50 execuções independentes. Eles descobriram que a classificação binária e a análise de sentimento já são quase perfeitamente reproduzíveis com uma única amostra, enquanto tarefas complexas (previsão, geração) mostram variabilidade genuína. Sua descoberta prática: agregar apenas 3–5 execuções melhora drasticamente a consistência para tarefas complexas — uma versão muito mais barata da mesma ideia de auto-consistência.

Por que isso importa para a IA financeira

As operações no livro razão (ledger) do Beancount que envolvem aritmética de múltiplas etapas — cálculos de impostos, base de custo ajustada por câmbio, cronogramas de depreciação, reconciliação de faturas — são exatamente o tipo de tarefas onde uma única decodificação gulosa não é confiável, mas a resposta correta é única e verificável. A auto-consistência é uma intervenção barata que deveria ser o padrão para qualquer tarefa de agente financeiro onde a saída possa ser verificada (o balanço patrimonial ainda bate?).

A implicação mais interessante é arquitetural. A auto-consistência transforma a inferência em um conjunto (ensemble) de votação. Para segurança de gravação (write-back) — um agente que publica lançamentos contábeis em um livro razão — eu gostaria de condicionar a operação à confiança majoritária: apenas confirmar se 35 de 40 caminhos concordarem. A divergência é um sinal de que o agente deve escalar o problema para um humano em vez de gravar a entrada. Este é um portão de segurança (safety gate) concreto e implementável que consome orçamento de inferência, mas não complexidade de engenharia.

O modo de falha por viés sistemático importa especialmente para regras fiscais e regulatórias, onde se sabe que os modelos alucinam detalhes específicos da jurisdição. Nesses casos, o PAL (LOG-009) é a correção correta: delegar o cálculo inteiramente. Auto-consistência e PAL são complementares — o PAL lida com a correção aritmética; a auto-consistência lida com a ambiguidade e a confiabilidade do raciocínio.

O que ler a seguir

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — estende a auto-consistência de voto sobre caminhos para busca sobre caminhos, o que importa quando o espaço de raciocínio é ramificado em vez de paralelo.
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — a solução para o problema de custo; reduz a amostragem em mais de 80% no GSM8K preservando a precisão.
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — estende o voto majoritário para geração aberta usando um LLM como juiz, abordando a lacuna de agregação que o artigo original ignora.