Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo
Tenho pensado sobre a verificação multiagente para a segurança de write-back do Beancount — especificamente, se um agente verificador pode debater de forma significativa com um agente escritor antes que um lançamento no ledger seja efetivado. Essa pergunta me levou de volta ao artigo fundamental sobre debate multiagente, que foi apresentado na ICML 2024 e, desde então, atraiu um corpo útil de trabalhos de acompanhamento críticos.
O artigo
"Improving Factuality and Reasoning in Language Models through Multiagent Debate" por Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum e Igor Mordatch propõe o que chamam de uma abordagem de "sociedade de mentes": múltiplas instâncias de LLM geram, cada uma, uma resposta inicial, depois leem o conjunto completo de respostas dos pares e atualizam sua própria resposta ao longo de várias rodadas. A escolha de design fundamental é que a abordagem requer apenas acesso de "caixa preta" às saídas do modelo — sem gradientes, sem ajuste fino, sem mudanças na arquitetura. Eles testaram isso em seis benchmarks: aritmética, GSM8K, otimalidade de movimentos de xadrez, factualidade biográfica, MMLU e validade de movimentos de xadrez.
A configuração sobre a qual relatam a maioria dos resultados é de 3 agentes debatendo por 2 rodadas. A aposta conceitual é que o desacordo força os agentes a articularem seu raciocínio, enquanto a convergência sinaliza uma confiança genuína em vez de uma consistência aleatória.
Principais ideias
- Em aritmética, o debate atingiu 81,8% de precisão vs. 67,0% para um único agente e 72,1% para a reflexão de um único agente — um ganho de 14,8 pontos sobre a linha de base.
- No GSM8K (matemática de nível fundamental), 85,0% vs. 77,0% do agente único e 75,0% com reflexão.
- No MMLU (100 perguntas espalhadas por diversas áreas), 71,1% vs. 63,9% do agente único e 57,7% com reflexão.
- Em factualidade biográfica, 73,8% vs. 66,0% do agente único.
- O debate entre modelos diferentes (ChatGPT + Bard em 20 problemas do GSM8K) resolveu 17/20 vs. 11–14 para cada modelo individualmente — o resultado mais impressionante do artigo, pois mostra agentes heterogêneos corrigindo os erros uns dos outros.
- O desempenho escalou tanto com o número de agentes quanto com o número de rodadas até 4 rodadas, com retornos decrescentes após isso. Prompts "longos", que encorajam explicitamente os agentes a desacelerar antes do consenso, superaram consistentemente os prompts curtos.
O que se sustenta — e o que não se sustenta
Os ganhos são reais, e a cobertura de benchmarks é mais ampla do que a maioria dos artigos sobre prompting. Acredito na descoberta direcional: ter múltiplos agentes criticando uns aos outros detecta mais erros do que um único agente refletindo sobre sua própria saída.
O problema é o que não é controlado. Três agentes debatendo por duas rodadas significam aproximadamente 6× o custo computacional de inferência de uma única chamada, antes mesmo de considerar o contexto mais longo. O artigo nunca apresenta uma linha de base com orçamento igual. A autoconsistência — votação por maioria sobre muitas amostras independentes de agente único — é uma comparação natural que o artigo aborda apenas brevemente. Um artigo de 2025 (arXiv:2604.02460) executa exatamente esse controle em benchmarks de raciocínio multi-etapa no Qwen3, DeepSeek-R1 e Gemini 2.5 com orçamentos de tokens de raciocínio equiparados, e descobre que "sistemas de agente único podem igualar ou superar MAS" uma vez que a computação é equalizada. Isso é um desafio direto à afirmação principal.
O outro modo de falha que o artigo reconhece, mas subestima, é o que o M3MAD-Bench (arXiv:2601.02854) chama de "Delírio Coletivo": em uma análise manual de 100 falhas de debate, 65% envolveram agentes reforçando mutuamente respostas erradas em vez de corrigi-las. O próprio texto do artigo observa que os agentes às vezes "afirmam com confiança que sua resposta está correta" mesmo quando convergem para uma resposta incorreta. Quando todos os agentes compartilham a mesma distribuição de treinamento — o caso homogêneo — eles provavelmente compartilharão os mesmos pontos cegos. O debate então amplifica o erro em vez de detectá-lo.
Uma descoberta relacionada do mesmo artigo: a "Conformidade Incorreta" representa uma parcela não trivial das falhas — um agente correto abandona o raciocínio sólido após ler as respostas erradas dos pares. Isso é o oposto do que a estrutura de debate deveria fazer. É um lembrete de que a dinâmica de persuasão nesses loops multiagentes pode fluir em qualquer direção.
Por que isso é importante para a IA nas finanças
A arquitetura é genuinamente atraente para a segurança de write-back do Beancount: o escritor propõe um lançamento no ledger, o verificador o debate, e o consenso dispara o commit. A análise de risco muda dependendo do que você está escrevendo. Para uma despesa rotineira de supermercado, o custo de uma rodada de debate não vale a pena. Para um lançamento de diário de final de ano fiscal ou uma transferência intercompany, ter um segundo agente examinando os códigos de conta e os valores antes do commit é defensável.
Mas o Delírio Coletivo é particularmente perigoso para a contabilidade. Se tanto um agente escritor quanto um verificador compartilharem a mesma crença errada sobre como uma dedução específica é categorizada sob as regras de uma determinada jurisdição, o debate confirma o erro em vez de sinalizá-lo. O próprio resultado do artigo com modelos cruzados aponta para a solução: agentes heterogêneos — modelos diferentes, prompts de sistema diferentes ou um agente fundamentado em documentação externa — têm maior probabilidade de trazer à tona desacordos genuínos. O M3MAD-Bench confirma que o "debate heterogêneo colaborativo" supera substancialmente as configurações homogêneas.
A multiplicação da computação também importa em escala de produção. Dez edições de ledger por sessão × 3 agentes × 2 rodadas = 60 chamadas de LLM. Isso é sustentável para gravações de alto risco, mas não para a importação rotineira de transações. O design correto é provavelmente uma abordagem em camadas: um caminho rápido de agente único para entradas bem estruturadas, e o debate invocado apenas quando o escritor expressa incerteza ou quando o lançamento afeta uma classe de conta de alta sensibilidade (passivos fiscais, lucros acumulados, intercompany).
O que ler em seguida
- arXiv:2604.02460 — "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets": o desafio publicado mais claro às alegadas vantagens computacionais do debate.
- arXiv:2601.02854 — M3MAD-Bench: avaliação em larga escala de debate em 9 modelos e 13 conjuntos de dados, com a taxonomia de falhas de Delírio Coletivo.
- arXiv:2406.09187 — GuardAgent: um agente de guarda que traduz políticas de segurança em código executável; uma abordagem mais direta para a segurança de write-back do que o consenso baseado em debate.
