Pular para o conteúdo principal

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

ReAct (Yao et al., ICLR 2023) é o artigo por trás do ciclo de raciocínio-então-ação que a maioria dos agentes financeiros modernos agora usa como estrutura padrão. Eu andei adiando isso porque parece infraestrutura — o tipo de coisa que todo mundo já conhece — mas depois de passar um tempo com a gravação automática autônoma em livros contábeis (ledger write-back), eu quis entender os modos de falha na fonte, não pelo folclore a jusante.

O artigo

2026-04-17-react-synergizing-reasoning-and-acting-in-language-models

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan e Yuan Cao propõem uma ideia enganosamente simples: em vez de pedir a um modelo de linguagem para raciocinar (chain-of-thought) ou agir (invocar ferramentas), deixe-o fazer ambos em um fluxo intercalado. Cada etapa na trajetória é um Pensamento (raciocínio livre sobre o que fazer a seguir) ou um par Ação/Obs (uma ação e sua observação do ambiente). A alegação é que essa intercalação é sinérgica — o raciocínio molda quais ações tomar, e as observações remodelam o raciocínio.

Eles testam isso em quatro benchmarks: HotpotQA e Fever (QA de conhecimento intensivo e verificação de fatos, usando uma API de busca da Wikipedia como espaço de ação), e ALFWorld e WebShop (ambientes de e-commerce corporificados e simulados que exigem tomada de decisão em múltiplas etapas). Todos os experimentos usam PaLM-540B e GPT-3 (text-davinci-002) sob prompting de poucos disparos (few-shot) com apenas um ou dois exemplos no contexto.

Ideias-chave

  • No ALFWorld, o ReAct supera as linhas de base de aprendizagem por imitação e aprendizagem por reforço em 34 pontos percentuais absolutos na taxa de sucesso da tarefa; no WebShop, o ganho é de 10 pontos percentuais absolutos.
  • No Fever (verificação de fatos), o ReAct supera o chain-of-thought. No HotpotQA (QA de múltiplos saltos), o CoT na verdade vence o ReAct — o artigo reconhece isso diretamente em vez de omitir.
  • Os casos de falha dividem-se em dois tipos: erros de raciocínio (o modelo julga mal quais informações possui) e erros de busca (um resultado não informativo da Wikipedia desvia a cadeia de raciocínio subsequente). Estes são qualitativamente diferentes e exigem mitigações diferentes.
  • O formato em si é interpretável: um humano pode ler o traço de Pensamento, encontrar o erro e corrigi-lo editando uma única linha. Isso é explicitamente apontado como uma propriedade de segurança.
  • O ajuste fino (fine-tuning) de modelos menores em trajetórias ReAct permite que eles superem modelos maiores baseados apenas em prompts — sugerindo que o formato intercalado é aprendível, não apenas um truque de prompting.

O que se sustenta — e o que não se sustenta

Os resultados de tomada de decisão interativa (ALFWorld, WebShop) são a parte mais forte do artigo. A diferença em relação à aprendizagem por imitação pura é grande o suficiente para ser difícil de atribuir à sorte de hiperparâmetros. Os traços de raciocínio são genuinamente legíveis, e a análise de erros distinguindo falhas de busca de falhas de raciocínio é honesta e útil.

Os resultados de QA de conhecimento intensivo são mais fracos e o artigo sabe disso. O ReAct perder para o CoT no HotpotQA é um dado real: quando a resposta pode ser alcançada encadeando o conhecimento interno do modelo, a fricção das invocações de ferramentas na verdade atrapalha. O modelo às vezes recupera um trecho da Wikipedia que é tangencialmente relacionado, ancora-se nele e, em seguida, produz um raciocínio pior do que se tivesse apenas ficado em sua "cabeça". O artigo chama isso de "distração induzida pela busca" e isso não é corrigido pela arquitetura — é um problema de qualidade de recuperação disfarçado de problema de agente.

Há também uma questão fundamental de avaliação que o artigo herda dos próprios benchmarks: tanto o ALFWorld quanto o WebShop possuem espaços de ação relativamente limitados em comparação com o que um agente do mundo real precisa. A melhoria de 34% no ALFWorld é impressionante dentro do jogo, mas o ALFWorld é um ambiente doméstico simulado com um pequeno vocabulário fixo de ações. Generalizar isso para, digamos, um livro contábil Beancount com um esquema de transações aberto requer uma extrapolação que o artigo não justifica.

A configuração few-shot é ao mesmo tempo uma força e uma fraqueza. Um ou dois exemplos no contexto são impressionantes, mas também significam que os resultados são altamente sensíveis a quais exemplos são escolhidos. Não encontrei ablações sobre a seleção de exemplos no artigo, o que teria sido útil.

Por que isso importa para a IA financeira

O problema da segurança na gravação (write-back) para agentes autônomos do Beancount é exatamente o regime de falha que o ReAct ilumina. Se um agente está raciocinando sobre uma decisão de categorização de transação e recupera uma entrada ambígua no livro contábil — uma que poderia ser mapeada tanto para Expenses:Food quanto para Expenses:Entertainment — o padrão ReAct ancorará o raciocínio subsequente em qualquer interpretação que a primeira entrada recuperada sugerir. Este é o análogo financeiro da "distração induzida pela busca", e não desaparece com um prompting mais cuidadoso.

O argumento da interpretabilidade importa mais aqui do que o artigo provavelmente pretendia. Na contabilidade, um auditor não precisa apenas da resposta certa — ele precisa de uma cadeia de raciocínio rastreável que possa aprovar. Os traços de Pensamento do ReAct oferecem essa cadeia, e a observação de que um humano pode corrigir uma trajetória editando um único Pensamento é diretamente aplicável a uma etapa de revisão com humano no ciclo (human-in-the-loop) antes de qualquer lançamento contábil ser efetivado no arquivo.

O modo de falha que mais me preocupa, porém, é o acúmulo de erros em tarefas de longo horizonte. Um trabalho de conciliação que envolve cinquenta transações tem muito mais oportunidades para um Pensamento dar errado do que uma única busca na Wikipedia. O ReAct não fornece nenhum mecanismo nativo para o agente detectar que se desviou do caminho — ele apenas continua. O Reflexion (Shinn et al., arXiv:2303.11366) aborda isso adicionando uma etapa de autoavaliação verbal, e ReAct + Reflexion resolve 130 de 134 tarefas do ALFWorld em comparação com o ReAct sozinho. Esse delta mostra quanto valor existe em adicionar um ciclo de recuperação sobre a estrutura básica do ReAct.

O que ler a seguir

  • Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023, arXiv:2303.11366) — adiciona uma etapa de autorreflexão que permite a um agente ReAct revisar sua estratégia entre episódios; a extensão mais direta para agentes contábeis que precisam se recuperar de erros no meio da trajetória.
  • FireAct: Toward Language Agent Fine-tuning (Chen et al., 2023, arXiv:2310.05915) — ajusta modelos especificamente em trajetórias ReAct usando múltiplas ferramentas; relevante para treinar um agente específico para Beancount em chamadas reais de ferramentas de contabilidade.
  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — explora a busca por caminhos de raciocínio em vez de se comprometer com uma única cadeia; importa para casos onde a primeira trajetória ReAct está errada e precisa de um retrocesso (backtracking) sistemático.