Salta al contingut principal

Voyager: Les biblioteques de competències com a base per a l'aprenentatge permanent d'agents d'IA

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Les biblioteques de competències —una reserva persistent de funcions executables que un agent pot escriure, recuperar i reutilitzar— són l'arquitectura a la qual torno constantment quan penso en l'automatització del llibre major a llarg termini. Voyager (arXiv:2305.16291), de Guanzhi Wang, Anima Anandkumar i col·laboradors de NVIDIA i Caltech, és la demostració més clara fins ara que una biblioteca d'aquest tipus pot permetre un aprenentatge permanent genuí sense actualitzacions de gradients. El llegeixo ara perquè la pregunta que respon —com acumula un agent una competència reusable al llarg del temps?— és exactament la pregunta que afronta qualsevol sistema que hagi de gestionar un llibre major de Beancount que creix mes rere mes.

L'article

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager és un agent basat en GPT-4 per a Minecraft que aprèn contínuament sense cap ajust fi de paràmetres. Wang et al. descriuen tres components interconnectats. En primer lloc, un currículum automàtic que proposa nous objectius calibrats segons l'inventari actual i l'estat del món de l'agent, impulsant-lo sempre cap a territoris inexplorats. En segon lloc, una biblioteca de competències de funcions JavaScript indexades per vectors d'incrustació (embeddings) de les seves descripcions en llenguatge natural: cada vegada que una tasca té èxit, s'emmagatzema el codi guanyador; cada vegada que arriba una tasca nova, es recuperen les 5 competències més rellevants i s'injecten al prompt. En tercer lloc, un bucle de prompting iteratiu que executa fins a quatre rondes de refinament per tasca, basant-se en tres canals de retroalimentació: l'estat de l'entorn, els errors d'execució i una segona crida a GPT-4 que actua com a autoverificador.

L'agent competeix contra ReAct, Reflexion i AutoGPT adaptats per a Minecraft, i no hi ha color. Voyager va descobrir 63 ítems únics al llarg de 160 iteracions de prompting, la qual cosa, segons els autors, és 3,3 vegades més que l'estat de l'art anterior. Va desbloquejar fites de l'arbre tecnològic de fusta 15,3 vegades més ràpid i de pedra 8,5 vegades més ràpid. Més important encara, va ser l'únic mètode que va aconseguir arribar al nivell de diamant. En una prova de transferència zero-shot —un món de Minecraft nou, inventari buit, tasques inèdites—, Voyager va resoldre tots els objectius en menys de 50 iteracions; ReAct, Reflexion i AutoGPT no en van resoldre cap.

Idees clau

  • Les competències s'emmagatzemen com a codi, no com a descripcions en llenguatge natural. La recuperació es fa per similitud d'incrustació sobre la descripció, però l'execució és codi determinista, la qual cosa evita l'ambigüitat de demanar a GPT-4 que "recordi" des de zero com extreure ferro.
  • El currículum és conscient de l'entorn: consulta l'estat actual del joc abans de proposar la següent tasca, de manera que l'agent mai intenta objectius que el seu equipament actual fa impossibles.
  • Eliminar el currículum automàtic va reduir el recompte d'ítems descoberts en un 93%. Eliminar l'autoverificació va reduir el rendiment en un 73%. La biblioteca de competències és més important en les etapes posteriors; al principi ajuda poc, però a partir de les 80 iteracions, els agents que no la tenen s'estanquen.
  • GPT-4 va superar GPT-3.5 en 5,7 vegades en el descobriment d'ítems únics. La bretxa de qualitat en la generació de codi és el factor dominant, no la profunditat de raonament per se.
  • La biblioteca de competències és transferible: donar les competències acumulades de Voyager a AutoGPT va millorar la generalització zero-shot d'AutoGPT de 0/3 a 1-2/3 d'èxit.

Què es manté dempeus — i què no

El resultat principal és real i les ablacions s'han realitzat correctament. Eliminar cada component individualment i mesurar la diferència és la metodologia adequada, i les caigudes del 93%/73% són prou sorprenents com perquè cap explicació de selecció dirigida (cherry-picking) pugui salvar els resultats de referència. El resultat de la generalització zero-shot és l'afirmació més potent: les competències escrites en un món es transfereixen a un altre perquè l'API subjacent de Mineflayer és la mateixa.

El que l'article minimitza és el paper del sandbox. Minecraft proporciona un simulador que captura els errors a l'instant, es reinicia netament i mai té efectes secundaris fora del joc. Això és un regal extraordinari. Cada intent fallit d'una competència produeix una traça d'execució neta amb un missatge d'error estructurat. L'autoverificació funciona perquè l'èxit a Minecraft és binari i inequívoc: o tens un pic de diamant o no el tens. Cap d'aquestes propietats es dona en un llibre major real: un error de partida doble pot quadrar numèricament però ser semànticament incorrecte; una transacció confirmada no es pot desfer sense un contra-assentament; i respondre a "ha tingut èxit la competència?" requereix una lògica financera específica del domini que un motor de joc no proporciona.

L'estructura de costos també és significativament rellevant. Els autors assenyalen que GPT-4 és 15 vegades més car que GPT-3.5 per crida, i cada tasca executa fins a quatre rondes de prompting iteratiu més una crida d'autoverificació. Per a una sessió de Minecraft, això és acceptable. Per a un agent comptable que processa centenars de transaccions mensuals, el cost per tasca s'acumula ràpidament. L'article no modelitza això.

Finalment, l'objectiu d'exploració del currículum és la pura maximització del descobriment. Això té sentit en un joc on més ítems equivalen a més capacitat. En finances, l'objectiu equivalent no és "trobar nous tipus de transaccions", sinó "gestionar correctament i de manera fiable tots els tipus de transaccions, incloses les poc freqüents". El problema del disseny del currículum és més difícil.

Per què això és important per a la IA financera

El patró de la biblioteca de competències és directament aplicable als agents de llibres majors de Beancount. Un agent de llibre major que aconsegueix conciliar una importació bancària escriu aquesta funció de conciliació en un magatzem persistent. El mes següent, quan arriba el CSV del mateix banc, la recuperació fa aparèixer el batedor (parser) correcte immediatament, sense haver de tornar-lo a derivar. Entre clients amb estructures de pla de comptes similars, les competències escrites per a un llibre major es poden provar contra un altre.

La lliçó més interessant és la separació entre l'adquisició de competències i la seva reutilització. Voyager demostra que no cal un ajust fi per obtenir acumulació: un magatzem de codi ben indexat combinat amb un model base capaç és suficient. Aquest és un argument de pes per invertir en la capa d'indexació i recuperació d'un agent de llibre major, en lloc de fer-ho en l'entrenament de models específics del domini.

On l'analogia es trenca és en la seguretat d'escriptura. A Minecraft, un intent fallit d'una competència es reinicia. En un llibre major real, no. Qualsevol adaptació financera del patró Voyager necessita una capa de proves (staging) —un mode de prova en sec on el codi de la competència candidata s'executi contra una còpia del llibre major, verifiqui el balanç de comprovació i només llavors es confirmi. L'autoverificació tal com la implementa Voyager (una segona crida a GPT-4 preguntant "ha funcionat?") no és prou robusta per a la correcció financera. Necessites que el propi llibre major doni la resposta.

Què llegir a continuació

  • JARVIS-1: Agents multitasca de món obert amb models de llenguatge multimodals augmentats amb memòria — amplia l'enfocament de biblioteca de competències de Voyager amb memòria multimodal (plans visuals i textuals), completant més de 200 tasques de Minecraft; rellevant per entendre com s'escalen les biblioteques de competències a espais d'observació més rics. (Cerca a arXiv: "JARVIS-1 open world Minecraft 2023")
  • Aprenentatge permanent d'agents basats en models de llenguatge de gran escala: un full de ruta — una enquesta de 2025 que cobreix la construcció, aplicació i avaluació d'agents LLM d'aprenentatge permanent; útil per situar Voyager en la literatura més àmplia i identificar problemes oberts. [arXiv:2501.07278]
  • Aprenentatge per reforç per a agents que milloren sols amb biblioteca de competències (SAGE) — introdueix l'adquisició de competències basada en RL en el paradigma de la biblioteca estil Voyager, abordant la limitació que les competències de Voyager només s'afegeixen en cas d'èxit, sense refinar-se mitjançant senyals de recompensa. [arXiv:2512.17102]