Tree of Thoughts: Resolução Deliberada de Problemas com Busca de LLM
Após dedicar as duas últimas entradas a agentes que se autocorrigem via reflexão (Reflexion) e crítica interativa com ferramentas (CRITIC), quis dar um passo atrás e olhar para uma abordagem mais estrutural: e se o agente nunca se comprometesse com um único caminho de raciocínio logo de início? Tree of Thoughts (ToT), de Yao et al. (NeurIPS 2023), propõe exatamente isso — um framework de busca onde a LLM explora um espaço ramificado de etapas intermediárias de raciocínio, em vez de uma cadeia linear. Eu o li agora porque ele representa a formulação mais clara de busca deliberada para o raciocínio de LLM, e a busca deliberada é o que você precisa quando um único passo intermediário errado em um cálculo financeiro pode corromper silenciosamente tudo o que vem depois.
O artigo
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao e Karthik Narasimhan apresentam o Tree of Thoughts como uma generalização do chain-of-thought prompting. A jogada principal é tratar as etapas intermediárias de raciocínio como "pensamentos" — unidades de texto coerentes que podem ser avaliadas independentemente — e organizá-las em uma árvore em vez de uma cadeia. Em cada nó, o modelo gera múltiplos pensamentos candidatos, avalia cada um (via uma chamada de LLM separada que pontua os estados como "seguro / talvez / impossível") e, em seguida, aplica um algoritmo de busca padrão (BFS ou DFS) para percorrer a árvore. Se um ramo parecer sem saída, o modelo pode podá-lo ou retroceder (backtracking) — algo que nem o CoT nem o CoT-SC conseguem fazer.
O artigo avalia o modelo em três tarefas: Game of 24 (combinar quatro números para chegar a 24 usando aritmética), Escrita Criativa (produzir um trecho coerente usando quatro finais de frases aleatórios) e Mini Palavras Cruzadas (resolver um quebra-cabeça 5×5). Todas as três exigem raciocínio que pode se beneficiar da exploração e do backtracking, que é exatamente o cenário para o qual os autores o projetaram.
Ideias principais
- No Game of 24, o ToT com largura de feixe b=5 atinge 74% de sucesso, contra 4% para o GPT-4 com CoT padrão e 9% para o CoT-SC com 100 amostras. Essa diferença é impressionante.
- GPT-3.5 + ToT alcança apenas 19% na mesma tarefa; o benefício do método é altamente dependente do modelo. A qualidade da geração de pensamentos do GPT-4 é o que impulsiona a maior parte do ganho — geração com GPT-4 + avaliação com GPT-3.5 atinge 64%, enquanto geração com GPT-3.5 + avaliação com GPT-4 atinge apenas 31%.
- Para Escrita Criativa, o ToT pontua 7,56 vs 6,93 do CoT em uma escala de coerência do GPT-4, e avaliadores humanos preferem os resultados do ToT 41/100 vezes contra 21/100 para o CoT.
- Mini Palavras Cruzadas: ToT alcança 60% de precisão no nível da palavra (CoT: 40,6%, IO: 15,6%), mas resolve apenas 4 de 20 jogos completos (20%). A lacuna entre o sucesso no nível da palavra e o sucesso no nível do jogo revela que, mesmo com backtracking, a satisfação de restrições globais continua difícil.
- A etapa de avaliação é, por si só, uma chamada de LLM. Nas palavras cruzadas, o artigo observa que os avaliadores às vezes consideram estados parciais corretos como "impossíveis" devido a vocabulário desconhecido — um modo de falha cumulativo onde os erros do avaliador envenenam a busca.
- Custo computacional: o ToT custa aproximadamente $0,74 por caso no Game of 24, contra $0,47 para o melhor de 100 CoT. Os próprios autores sinalizam que, para tarefas que o GPT-4 já lida bem, o custo adicional não vale a pena.
O que se sustenta — e o que não
O resultado central — de que a busca em árvore sobre pensamentos intermediários supera massivamente o CoT sequencial em tarefas que exigem backtracking — é real e reproduzível. A lacuna de 74% vs 4% no Game of 24 não é ruído. A explicação é mecanicamente sólida: uma única equação intermediária ruim no CoT derruba o resto da cadeia, enquanto o ToT pode podar esse ramo e tentar uma decomposição diferente.
O que considero menos convincente é a afirmação de generalização. Todas as três tarefas de avaliação são relativamente sintéticas: um quebra-cabeça matemático, um prompt de escrita criativa com restrições estruturais e um jogo de palavras. Nenhuma delas se assemelha aos problemas abertos e ambíguos que surgem em fluxos de trabalho financeiros de produção. Os autores também avaliam apenas no GPT-4 (e GPT-3.5 como ablação), então não sabemos como o ToT se comporta com modelos menores ou ajustados — e o número de 19% para o GPT-3.5 sugere que a resposta é "não muito bem".
A falha no nível do jogo de palavras cruzadas (20% apesar de 60% de precisão nas palavras) aponta para um problema mais profundo: o ToT é uma busca local guiada por um avaliador local. Ele não mantém um modelo de restrição global, que é exatamente o que você precisa para problemas onde as interações entre sub-soluções são densas. O artigo subsequente Graph of Thoughts (Besta et al., AAAI 2024) faz essa crítica explicitamente e demonstra uma melhoria de qualidade de 62% sobre o ToT em tarefas de ordenação, reduzindo o custo em mais de 31% — ao permitir que os pensamentos se fundam e formem ciclos em vez de ficarem confinados a uma árvore.
Finalmente, a estrutura de custos importa na prática. Com b=5 e chamadas repetidas ao avaliador, o ToT é cerca de 15–20 vezes mais caro em chamadas de API do que uma única passagem de CoT. Para aplicações sensíveis à latência ou ao custo, isso não é trivialmente aceitável.
Por que isso importa para a IA financeira
A resposta honesta é: o ToT importa mais para uma fatia estreita do espaço de problemas do Beancount, mas essa fatia é real.
A tarefa financeira canônica onde eu desejo o backtracking é a classificação de contas em múltiplas etapas com transações ambíguas. Quando uma LLM está mapeando um extrato bancário importado para um plano de contas, uma única atribuição errada no início da cadeia (por exemplo, tratar um desembolso de empréstimo como receita) pode cascatear em uma falha de verificação de saldo várias etapas depois. Em um agente CoT, quando o saldo falha, o modelo não tem mecanismo para revisitar a classificação original. Um agente ToT poderia retroceder até aquele nó e tentar Liabilities:Loans em vez disso.
Da mesma forma, a otimização fiscal ao longo de um ano fiscal completo é um problema genuíno de busca em árvore: detalhar deduções vs. usar a dedução padrão, o momento de realizar ganhos de capital, agrupar contribuições de caridade. Essas decisões interagem de forma não linear, e você precisa avaliar múltiplos ramos antes de se comprometer. O enquadramento BFS/DFS do ToT mapeia-se naturalmente para essa estrutura.
Com o que o ToT não ajuda é o caso dominante no Beancount: entrada rotineira de transações e reconciliação. Para uma transação que tem uma contraparte clara no livro-razão, CoT + PAL (descarregar a aritmética para um intérprete de código) é mais rápido, mais barato e já é preciso o suficiente. Aplicar ToT à classificação de expenses:groceries é usar uma marreta para um percevejo.
A preocupação mais urgente para a segurança da escrita no livro-razão é o problema de confiabilidade do avaliador. Se o avaliador de estado também for uma LLM, ele pode estar errado — e avaliações erradas não apenas atrasam a busca, elas podam caminhos corretos. Qualquer agente financeiro de produção usando ToT precisaria de um oráculo externo (uma verificação de saldo, um validador de esquema, um motor de regras) para servir como avaliador, não outra chamada de LLM.
O que ler a seguir
- Graph of Thoughts: Solving Elaborate Problems with Large Language Models (Besta et al., AAAI 2024) — arXiv:2308.09687. Estende o ToT de árvores para grafos arbitrários, permitindo a fusão de pensamentos e loops de feedback. A alegação de redução de custo (>31%) é diretamente relevante se você deseja raciocínio baseado em busca sem o custo adicional do ToT.
- Large Language Models Cannot Self-Correct Reasoning Yet (Huang et al., ICLR 2024) — arXiv:2310.01798. Um contraponto crítico: sem feedback externo, a autocorreção intrínseca degrada o desempenho do raciocínio. Isso desafia a suposição de que o avaliador baseado em LLM do ToT é confiável o suficiente para guiar a busca.
- RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation (arXiv:2409.09584) — aplica MCTS em vez de BFS/DFS à busca de pensamentos, com feedback de execução como o oráculo externo. O cenário de geração de código é estruturalmente semelhante à escrita no livro-razão: você tem uma verdade verificável (o código roda? a verificação de saldo passa?), que é exatamente onde as simulações de Monte Carlo agregam valor.
