Doorgaan naar hoofdinhoud

Voyager: Vaardigheidsbibliotheken als de basis voor levenslang leren van AI-agents

· 7 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Vaardigheidsbibliotheken — een persistente opslag van uitvoerbare functies die een agent kan schrijven, ophalen en hergebruiken — zijn de architectuur waar ik steeds naar terugkeer bij het nadenken over automatisering van grootboeken op de lange termijn. Voyager (arXiv:2305.16291), van Guanzhi Wang, Anima Anandkumar en medewerkers bij NVIDIA en Caltech, is de duidelijkste demonstratie tot nu toe dat een dergelijke bibliotheek echt levenslang leren mogelijk maakt zonder gradiënt-updates. Ik lees het nu omdat de vraag die het beantwoordt — hoe bouwt een agent in de loop van de tijd herbruikbare competentie op? — precies de vraag is waarmee elk systeem wordt geconfronteerd dat maand na maand een groeiend Beancount-grootboek moet verwerken.

De paper

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager is een door GPT-4 aangedreven agent voor Minecraft die continu leert zonder enige parameter fine-tuning. Wang et al. beschrijven drie onderling verbonden componenten. Ten eerste een automatisch curriculum dat nieuwe doelen voorstelt die zijn afgestemd op de huidige inventaris en wereldstatus van de agent, waarbij altijd wordt gestuurd naar onverkend terrein. Ten tweede een vaardigheidsbibliotheek van JavaScript-functies die zijn geïndexeerd door embedding-vectoren van hun beschrijvingen in natuurlijke taal: telkens wanneer een taak slaagt, wordt de winnende code opgeslagen; telkens wanneer een nieuwe taak binnenkomt, worden de top-5 meest relevante vaardigheden opgehaald en in de prompt geïnjecteerd. Ten derde een iteratieve prompting-loop die tot vier verfijningsrondes per taak uitvoert, gebruikmakend van drie feedbackkanalen — de status van de omgeving, uitvoeringsfouten en een tweede GPT-4-aanroep die fungeert als zelfverificatie.

De agent concurreert met ReAct, Reflexion en AutoGPT aangepast voor Minecraft, en het verschil is groot. Voyager ontdekte 63 unieke items gedurende 160 prompting-iteraties, wat de auteurs rapporteren als 3,3x meer dan de eerdere state-of-the-art. Het ontsloot mijlpalen in de technologische boom van het hout-niveau 15,3x sneller en van het steen-niveau 8,5x sneller. Belangrijker nog, het was de enige methode die überhaupt het diamant-niveau bereikte. In een zero-shot transfertest — een nieuwe Minecraft-wereld, lege inventaris, nieuwe taken — loste Voyager elk doel op binnen 50 iteraties; ReAct, Reflexion en AutoGPT losten er geen enkele op.

Belangrijkste ideeën

  • Vaardigheden worden opgeslagen als code, niet als beschrijvingen in natuurlijke taal. Het ophalen gebeurt via embedding-overeenkomst van de beschrijving, maar de uitvoering is deterministische code, wat de dubbelzinnigheid omzeilt van het vragen aan GPT-4 om "te onthouden" hoe je vanaf nul ijzer moet delven.
  • Het curriculum is omgevingsbewust: het vraagt de huidige spelstatus op voordat het de volgende taak voorstelt, zodat de agent nooit doelen probeert die onmogelijk zijn met de huidige uitrusting.
  • Het verwijderen van het automatische curriculum zorgde voor een daling van het aantal ontdekte items met 93%. Het verwijderen van zelfverificatie deed de prestaties met 73% dalen. De vaardigheidsbibliotheek is het belangrijkst in latere stadia — in het begin helpt het weinig; bij 80+ iteraties stagneren agents zonder deze bibliotheek.
  • GPT-4 presteerde 5,7x beter dan GPT-3.5 bij het ontdekken van unieke items. Het verschil in kwaliteit van de gegenereerde code is de dominante factor, niet de diepgang van de redenering op zich.
  • De vaardigheidsbibliotheek is overdraagbaar: het geven van Voyager's opgebouwde vaardigheden aan AutoGPT verbeterde de zero-shot generalisatie van AutoGPT van 0/3 naar 1–2/3 succes.

Wat standhoudt — en wat niet

Het kernresultaat is reëel en de ablaties zijn correct uitgevoerd. Het individueel verwijderen van elke component en het meten van het verschil is de juiste methodologie, en de dalingen van 93%/73% zijn opvallend genoeg dat de baselines niet gered kunnen worden door een verklaring van "cherry-picking". Het resultaat van de zero-shot generalisatie is de sterkste claim: vaardigheden geschreven in de ene wereld zijn overdraagbaar naar een andere omdat de onderliggende Mineflayer-API hetzelfde is.

Wat de paper onderbelicht, is de rol van de sandbox. Minecraft biedt een simulator die fouten direct signaleert, schoon reset en nooit neveneffecten heeft buiten het spel. Dat is een buitengewoon geschenk. Elke mislukte vaardigheidspoging produceert een schoon uitvoeringsspoor met een gestructureerd foutbericht. Zelfverificatie werkt omdat succes in Minecraft binair en ondubbelzinnig is — je hebt een diamanten houweel of je hebt hem niet. Geen van deze eigenschappen geldt voor een echt grootboek: een fout bij het dubbel boekhouden kan numeriek in evenwicht zijn maar semantisch onjuist; een definitief gemaakte transactie kan niet worden teruggedraaid zonder een tegenboeking; en de vraag "is de vaardigheid geslaagd?" vereist domeinspecifieke financiële logica die een game-engine niet biedt.

De kostenstructuur is ook stilletjes significant. De auteurs merken op dat GPT-4 per aanroep 15x duurder is dan GPT-3.5, en elke taak voert tot vier iteratieve prompting-rondes uit plus een zelfverificatie-aanroep. Voor een Minecraft-sessie is dit acceptabel. Voor een boekhoudagent die honderden maandelijkse transacties verwerkt, lopen de kosten per taak snel op. De paper modelleert dit niet.

Ten slotte is de exploratiedoelstelling van het curriculum puur gericht op het maximaliseren van ontdekkingen. Dat is logisch in een spel waar meer items = meer mogelijkheden. In de financiële wereld is de equivalente doelstelling niet "vind nieuwe transactietypes", maar "handel alle transactietypes betrouwbaar af, inclusief de zeldzame". Het ontwerpprobleem van het curriculum is daar lastiger.

Waarom dit belangrijk is voor AI in de financiële sector

Het patroon van de vaardigheidsbibliotheek is direct toepasbaar op Beancount-grootboekagents. Een grootboekagent die met succes een bankimport afstemt, schrijft die afstemmingsfunctie naar een persistente opslag. Volgende maand, wanneer het CSV-bestand van dezelfde bank binnenkomt, haalt de zoekfunctie onmiddellijk de juiste parser naar boven — geen nieuwe afleiding nodig. Bij klanten met vergelijkbare rekeningschema-structuren kunnen vaardigheden die voor het ene grootboek zijn geschreven, worden getest op een ander.

De interessantere les is de scheiding tussen het verwerven van vaardigheden en het hergebruik van vaardigheden. Voyager laat zien dat je geen fine-tuning nodig hebt om opbouw te krijgen: een goed geïndexeerde code-opslag plus een capabel basismodel is voldoende. Dat is een sterk argument om te investeren in de indexerings- en ophaallaag van een grootboekagent in plaats van in domeinspecifieke modeltraining.

Waar de analogie mank gaat, is de veiligheid bij het wegschrijven. In Minecraft wordt een mislukte vaardigheidspoging gereset. In een live grootboek gebeurt dat niet. Elke financiële aanpassing van het Voyager-patroon heeft een staging-laag nodig — een dry-run modus waarbij de code van de kandidaat-vaardigheid wordt uitgevoerd op een kopie van het grootboek, de proefbalans verifieert en pas daarna de wijzigingen doorvoert. Zelfverificatie zoals Voyager die implementeert (een tweede GPT-4-aanroep die vraagt "werkte het?") is niet sterk genoeg voor financiële correctheid. Je hebt het grootboek zelf nodig om te antwoorden.

Wat nu te lezen

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — breidt de aanpak van Voyager met vaardigheidsbibliotheken uit met multimodaal geheugen (visuele + tekstuele plannen), en voltooit meer dan 200 Minecraft-taken; relevant om te begrijpen hoe vaardigheidsbibliotheken schalen naar rijkere observatieruimtes. (arXiv-zoekopdracht: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — een overzicht uit 2025 dat de constructie, toepassing en evaluatie van levenslang lerende LLM-agents behandelt; nuttig om Voyager in de bredere literatuur te plaatsen en openstaande problemen te identificeren. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — introduceert op RL gebaseerde vaardigheidsverwerving in het Voyager-achtige bibliotheekparadigma, waarbij de beperking wordt aangepakt dat de vaardigheden van Voyager alleen bij succes worden toegevoegd en niet worden verfijnd via een beloningssignaal. [arXiv:2512.17102]