Pular para o conteúdo principal

Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

A pressão sobre agentes autônomos para serem simultaneamente baratos e confiáveis puxa em direções opostas: modelos de fronteira são confiáveis, mas caros; modelos pequenos são baratos, mas propensos a erros. O artigo ReDAct de Piatrashyn et al. (arXiv:2604.07036) propõe um caminho intermediário — executar um modelo pequeno por padrão e diferir para um modelo grande apenas quando o modelo pequeno estiver incerto. Estou lendo isso porque essa mesma tensão define cada agente de escrita (write-back) do Beancount em produção: você quer que o sistema lide com a categorização rotineira de forma barata e escale casos não óbvios antes que eles corrompam o livro-razão.

O artigo

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

O ReDAct (Reason-Defer-Act) baseia-se no paradigma de prompting ReAct e introduz uma arquitetura de agentes de dois modelos. Um modelo pequeno e barato — Qwen3-80B, Llama3.3-70B ou Llama4-Maverick — lida com cada etapa por padrão. Em cada etapa, ele gera um traço de raciocínio e, em seguida, gera uma ação. O sistema mede a incerteza em nível de token apenas sobre a etapa de geração de ação e a compara com um limite calibrado. Se a incerteza exceder esse limite, a etapa é executada novamente por um modelo grande e caro (GPT-5.2, Qwen3-235B ou Qwen3-480B); caso contrário, a ação do modelo pequeno é executada.

As medidas de incerteza são baseadas em teoria da informação e requerem apenas log-probabilidades em nível de token: Probabilidade de Sequência (soma do log-prob negativo), Perplexidade (normalizada pelo comprimento) e Entropia Média de Token (entropia média em todas as posições de token). O limite é calibrado a partir de um conjunto reservado de execuções do modelo pequeno, escolhendo o valor que produz um número alvo de chamadas ao modelo grande por episódio K.

Ideias principais

  • Medir a incerteza na etapa de ação, não na etapa de raciocínio. Um experimento auxiliar em 2.411 etapas do ALFWorld descobriu que a incerteza no nível do raciocínio tem baixo poder discriminativo entre etapas corretas e incorretas; a perplexidade no nível da ação tem ROC-AUC e PRR mensuravelmente maiores como preditor de correção.
  • O diferimento por PPL com Qwen3-80B + GPT-5.2 atinge 80,8% ± 1,1% no ALFWorld, superando o GPT-5.2 sozinho com 78,3% ± 1,9%, custando $16,25 vs $45,21 — aproximadamente 64% mais barato.
  • ~15% das etapas são diferidas na prática para atingir uma meta de calibração de cerca de 10%; a lacuna surge porque trajetórias com falha (mais curtas) contribuem desproporcionalmente para o orçamento de diferimento.
  • O diferimento aleatório na mesma taxa pontua 77,0% — ainda melhor do que apenas o modelo pequeno (68,3%), mas pior do que o diferimento guiado por UQ (quantificação de incerteza). O sinal de incerteza realmente importa, não apenas o ato de chamar mais o modelo grande.
  • MiniGrid mostra menos margem de manobra. Qwen3-80B + GPT-5.2 com diferimento PPL atinge 95,0% vs 99,0% para o GPT-5.2 sozinho. O vocabulário menor da tarefa cria um teto mais rígido para a abordagem de diferimento quando o modelo pequeno é estruturalmente inadequado.
  • A distribuição do diferimento depende da tarefa. O ALFWorld difere mais em etapas posteriores (histórico de prompt mais longo), enquanto o MiniGrid mostra um padrão bimodal ligado à posição inicial do agente. Isso significa que a calibração de limite fixo generaliza melhor dentro de uma família de tarefas do que entre famílias de tarefas diferentes.

O que se sustenta — e o que não

A principal descoberta empírica é crível: a perplexidade sobre a string de ação é uma proxy razoável para saber se uma determinada etapa está prestes a dar errado. A decomposição raciocínio/ação no ReAct fornece naturalmente um ponto limpo para anexar um sinal de incerteza, e o experimento auxiliar de predição de correção oferece uma justificativa mecanística genuína para a escolha do design.

O que me convence menos: o resultado "supera o modelo grande sozinho" no ALFWorld. 80,8% ± 1,1% vs 78,3% ± 1,9% se sobrepõem em um desvio padrão. Os autores atribuem isso a forças complementares — o modelo pequeno lida com etapas rotineiras sem a tomada de risco ocasional do modelo grande — mas não há ablação por etapa para verificar essa narrativa. Poderia facilmente ser apenas ruído.

A escolha do benchmark também é limitante. ALFWorld e MiniGrid são simulações domésticas baseadas em texto e navegação em mundo de grade — ambientes estreitos que não exercitam chamadas de ferramentas, execução de código ou recuperação de múltiplos documentos. Se o diferimento calibrado por incerteza se sustenta nesses cenários mais ricos (os cenários relevantes para o Beancount) permanece sem resposta. E a escolha do GPT-5.2 como o modelo grande torna os números de custo difíceis de reproduzir.

O procedimento de calibração tem uma circularidade não abordada: o limite é selecionado na mesma distribuição em que foi calibrado, sem validação em dados não vistos. Os autores reconhecem o desvio de distribuição entre a calibração (execuções do modelo pequeno) e a avaliação (execuções híbridas), mas deixam a robustez do limite para trabalhos futuros.

Por que isso importa para a IA financeira

Agentes de escrita do Beancount enfrentam exatamente a mesma questão de diferimento em cada transação. Uma compra rotineira de mercado precisa de categorização; um swap incomum de moeda estrangeira com várias pernas e um memorando parcialmente correspondido precisa de um humano. A prática atual é ou automação total (arriscada) ou revisão humana total (cara). O framework do ReDAct sugere um meio-termo viável: executar o modelo barato e escalar quando a perplexidade sobre a entrada candidata no diário exceder um limite calibrado.

O contexto financeiro adiciona duas considerações que o artigo não aborda. Primeiro, o diferimento aqui deve significar frequentemente pausar e perguntar ao usuário, não chamar um LLM maior — o padrão de correção do livro-razão é a intenção do usuário, não uma pontuação de benchmark. Segundo, a irreversibilidade de uma entrada confirmada no Beancount é maior do que um objeto mal posicionado no ALFWorld. O alvo de calibração K provavelmente deve ser ajustado de forma conservadora para uma menor precisão no modelo pequeno antes de diferir, e não o contrário.

O sinal de redução de custo de 64% vale a pena ser levado a sério, mesmo com essas ressalvas. Se um agente Beancount processa um mês de transações e apenas 15% das decisões de categorização precisam do modelo caro, a economia de operar um agente de escrita capaz parece muito melhor.

O que ler a seguir

  • KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — usa predição conformal para calibrar uma garantia de cobertura sobre quando pedir ajuda. O ReDAct não se compara a ele; entender o trade-off entre garantias conformais e calibração de limite importa antes de escolher uma abordagem de produção. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. atualizado, NAACL 2024) — taxonomia sistemática de confiança verbalizada, métodos baseados em amostragem e calibração pós-hoc; a base teórica para decidir se a perplexidade é a proxy de incerteza correta ou se o escalonamento de logit calibrado teria um desempenho melhor. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — aplica um limite de incerteza estruturalmente semelhante à decisão de invocação de ferramenta (chamar uma ferramenta vs. confiar no conhecimento do modelo), reduzindo chamadas de ferramentas em mais de 50%; o complemento direto ao ReDAct para o eixo de uso de ferramentas da incerteza do agente. [https://uala-agent.github.io/]