Pular para o conteúdo principal

Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Bibliotecas de habilidades — um armazenamento persistente de funções executáveis que um agente pode escrever, recuperar e reutilizar — são a arquitetura à qual continuo retornando ao pensar sobre automação de livros contábeis de longo prazo. O Voyager (arXiv:2305.16291), de Guanzhi Wang, Anima Anandkumar e colaboradores da NVIDIA e Caltech, é a demonstração mais clara até hoje de que tal biblioteca pode permitir um aprendizado contínuo genuíno sem atualizações de gradiente. Eu o leio agora porque a pergunta que ele responde — como um agente acumula competência reutilizável ao longo do tempo? — é exatamente a questão que enfrenta qualquer sistema do qual se espera lidar com um livro contábil Beancount em crescimento, mês após mês.

O artigo

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

O Voyager é um agente baseado em GPT-4 para Minecraft que aprende continuamente sem qualquer ajuste fino de parâmetros. Wang et al. descrevem três componentes interligados. Primeiro, um currículo automático que propõe novos objetivos calibrados para o inventário atual e o estado do mundo do agente, sempre pressionando em direção a territórios inexplorados. Segundo, uma biblioteca de habilidades de funções JavaScript indexadas por vetores de incorporação (embeddings) de suas descrições em linguagem natural: sempre que uma tarefa é bem-sucedida, o código vencedor é armazenado; sempre que uma nova tarefa chega, as 5 habilidades mais relevantes são recuperadas e injetadas no prompt. Terceiro, um loop de prompting iterativo que executa até quatro rodadas de refinamento por tarefa, valendo-se de três canais de feedback — estado do ambiente, erros de execução e uma segunda chamada ao GPT-4 atuando como um autoverificador.

O agente compete contra o ReAct, Reflexion e AutoGPT adaptados para o Minecraft, e a diferença é abismal. O Voyager descobriu 63 itens únicos em 160 iterações de prompting, o que os autores relatam como 3,3 vezes mais do que o estado da arte anterior. Ele desbloqueou marcos da árvore tecnológica de nível madeira 15,3 vezes mais rápido e de nível pedra 8,5 vezes mais rápido. Mais importante ainda, foi o único método a atingir o nível diamante. Em um teste de transferência zero-shot — um novo mundo de Minecraft, inventário vazio, tarefas inéditas — o Voyager resolveu todos os objetivos em 50 iterações; ReAct, Reflexion e AutoGPT não resolveram nenhum.

Ideias-chave

  • As habilidades são armazenadas como código, não como descrições em linguagem natural. A recuperação é feita por similaridade de embedding sobre a descrição, mas a execução é código determinístico, o que evita a ambiguidade de pedir ao GPT-4 para "lembrar" como minerar ferro do zero.
  • O currículo é consciente do ambiente: ele consulta o estado atual do jogo antes de propor a próxima tarefa, para que o agente nunca tente objetivos que seu equipamento atual torne impossíveis.
  • A remoção do currículo automático reduziu a contagem de itens descobertos em 93%. A remoção da autoverificação reduziu o desempenho em 73%. A biblioteca de habilidades é mais importante nos estágios finais — no início, ajuda pouco; após mais de 80 iterações, agentes sem ela estagnam.
  • O GPT-4 superou o GPT-3.5 em 5,7 vezes na descoberta de itens únicos. A lacuna na qualidade da geração de código é o fator dominante, não a profundidade do raciocínio por si só.
  • A biblioteca de habilidades é transferível: fornecer as habilidades acumuladas do Voyager ao AutoGPT melhorou a generalização zero-shot do AutoGPT de 0/3 para 1–2/3 de sucesso.

O que se sustenta — e o que não

O resultado central é real e as ablações foram feitas corretamente. Remover cada componente individualmente e medir a variação é a metodologia correta, e as quedas de 93%/73% são marcantes o suficiente para que nenhuma explicação baseada em escolha seletiva de dados (cherry-picking) salve os modelos de base. O resultado da generalização zero-shot é a afirmação mais forte: habilidades escritas em um mundo se transferem para outro porque a API Mineflayer subjacente é a mesma.

O que o artigo subestima é o papel do sandbox. O Minecraft fornece um simulador que captura erros instantaneamente, reinicia de forma limpa e nunca tem efeitos colaterais fora do jogo. Isso é um presente extraordinário. Cada tentativa de habilidade fracassada produz um rastreamento de execução limpo com uma mensagem de erro estruturada. A autoverificação funciona porque o sucesso no Minecraft é binário e inequívoco — ou você tem uma picareta de diamante ou não tem. Nenhuma dessas propriedades se aplica a um livro contábil real: um erro de partida dobrada pode equilibrar-se numericamente, mas estar semanticamente errado; uma transação confirmada não pode ser revertida sem um lançamento de estorno; e a pergunta "a habilidade foi bem-sucedida?" exige uma lógica financeira específica do domínio que um motor de jogo não fornece.

A estrutura de custos também é silenciosamente significativa. Os autores observam que o GPT-4 é 15 vezes mais caro que o GPT-3.5 por chamada, e cada tarefa executa até quatro rodadas iterativas de prompting mais uma chamada de autoverificação. Para uma sessão de Minecraft, isso é aceitável. Para um agente de contabilidade que processa centenas de transações mensais, o custo por tarefa se acumula rapidamente. O artigo não modela isso.

Finalmente, o objetivo de exploração do currículo é a pura maximização da descoberta. Isso faz sentido em um jogo onde mais itens significam mais capacidade. Em finanças, o objetivo equivalente não é "encontrar novos tipos de transação", mas "lidar corretamente com todos os tipos de transação de forma confiável, incluindo os raros". O problema do design do currículo é mais difícil.

Por que isso importa para a IA nas finanças

O padrão de biblioteca de habilidades é diretamente aplicável a agentes de livros contábeis Beancount. Um agente de ledger que concilia com sucesso uma importação bancária escreve essa função de conciliação em um armazenamento persistente. No mês seguinte, quando o CSV do mesmo banco chega, a recuperação traz o parser correto imediatamente — sem necessidade de nova derivação. Entre clientes com estruturas de plano de contas semelhantes, habilidades escritas para um livro contábil podem ser testadas contra outro.

A lição mais interessante é a separação entre aquisição de habilidades e reutilização de habilidades. O Voyager mostra que você não precisa de ajuste fino para obter acumulação: um armazenamento de código bem indexado somado a um modelo base capaz é suficiente. Esse é um forte argumento para investir na camada de indexação e recuperação de um agente contábil, em vez de investir no treinamento de modelos específicos de domínio.

Onde a analogia falha é na segurança da gravação (write-back). No Minecraft, uma tentativa de habilidade fracassada é reiniciada. Em um livro contábil real, não. Qualquer adaptação financeira do padrão Voyager precisa de uma camada de teste (staging) — um modo de simulação onde o código da habilidade candidata é executado contra uma cópia do ledger, verifica o balancete e, só então, confirma a operação. A autoverificação como o Voyager a implementa (uma segunda chamada ao GPT-4 perguntando "funcionou?") não é forte o suficiente para a correção financeira. Você precisa que o próprio livro contábil responda.

O que ler a seguir

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — estende a abordagem de biblioteca de habilidades do Voyager com memória multimodal (planos visuais + textuais), completando mais de 200 tarefas no Minecraft; relevante para entender como as bibliotecas de habilidades escalam para espaços de observação mais ricos. (Pesquisa arXiv: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — um levantamento de 2025 que abrange a construção, aplicação e avaliação de agentes LLM de aprendizado contínuo; útil para situar o Voyager na literatura mais ampla e identificar problemas em aberto. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — introduz a aquisição de habilidades baseada em RL no paradigma de biblioteca estilo Voyager, abordando a limitação de que as habilidades do Voyager só são adicionadas em caso de sucesso, não sendo refinadas através de sinais de recompensa. [arXiv:2512.17102]