Prejsť na hlavný obsah

Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Knižnice zručností – perzistentné úložisko vykonateľných funkcií, ktoré môže agent písať, získavať a opätovne používať – sú architektúrou, ku ktorej sa neustále vraciam pri premýšľaní o dlhodobej automatizácii účtovnej knihy. Voyager (arXiv:2305.16291) od Guanzhi Wanga, Animy Anandkumar a spolupracovníkov z NVIDIA a Caltechu je doteraz najjasnejšou ukážkou toho, že takáto knižnica môže umožniť skutočné celoživotné učenie bez aktualizácie gradientov. Čítam to teraz, pretože otázka, na ktorú odpovedá – ako si agent v priebehu času buduje opakovane použiteľné kompetencie? – je presne tou otázkou, ktorej čelí každý systém určený na správu rastúcej účtovnej knihy Beancount mesiac po mesiaci.

Článok

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager je agent pre Minecraft poháňaný GPT-4, ktorý sa učí nepretržite bez akéhokoľvek ladenia parametrov. Wang a kol. opisujú tri prepojené komponenty. Po prvé, automatické kurikulum, ktoré navrhuje nové ciele kalibrované podľa aktuálneho inventára agenta a stavu sveta, čím ho neustále tlačí do nepreskúmaných oblastí. Po druhé, knižnica zručností s funkciami JavaScriptu indexovanými pomocou embedding vektorov ich opisov v prirodzenom jazyku: kedykoľvek je úloha úspešná, víťazný kód sa uloží; kedykoľvek príde nová úloha, vyhľadá sa 5 najrelevantnejších zručností a vloží sa do promptu. Po tretie, iteratívna promptovacia slučka, ktorá vykonáva až štyri kolá vylepšovania na úlohu, pričom čerpá z troch kanálov spätnej väzby – stavu prostredia, chýb pri vykonávaní a druhého volania GPT-4, ktoré pôsobí ako seba-overovateľ.

Agent súťaží s modelmi ReAct, Reflexion a AutoGPT upravenými pre Minecraft a výsledky nie sú ani zďaleka vyrovnané. Voyager objavil 63 unikátnych položiek v priebehu 160 iterácií promptovania, čo autori uvádzajú ako 3,3× viac než predchádzajúce špičkové riešenia. Dosiahol míľniky v technologickom strome na drevenej úrovni 15,3× rýchlejšie a na kamennej úrovni 8,5× rýchlejšie. Čo je však dôležitejšie, bol to jediný spôsob, ktorý vôbec dosiahol diamantovú úroveň. V zero-shot teste prenosu – čerstvý svet Minecraftu, prázdny inventár, nové úlohy – Voyager vyriešil každý cieľ v rámci 50 iterácií; ReAct, Reflexion a AutoGPT nevyriešili žiadny.

Kľúčové myšlienky

  • Zručnosti sú uložené ako kód, nie ako opisy v prirodzenom jazyku. Vyhľadávanie prebieha podľa podobnosti embeddingov opisov, ale vykonávanie je deterministický kód, čo obchádza nejednoznačnosť pri zadávaní GPT-4, aby si „spomenul“, ako ťažiť železo od nuly.
  • Kurikulum si uvedomuje prostredie: pred navrhnutím ďalšej úlohy zisťuje aktuálny stav hry, takže agent sa nikdy nepokúša o ciele, ktoré sú s jeho súčasným vybavením nemožné.
  • Odstránenie automatického kurikula znížilo počet objavených položiek o 93 %. Odstránenie seba-overovania znížilo výkon o 73 %. Knižnica zručností je najdôležitejšia v neskorších fázach – na začiatku pomáha málo; pri viac ako 80 iteráciách agenti bez nej stagnujú.
  • GPT-4 prekonal GPT-3.5 5,7-násobne v objavovaní unikátnych položiek. Rozhodujúcim faktorom je rozdiel v kvalite generovania kódu, nie samotná hĺbka uvažovania.
  • Knižnica zručností je prenosná: poskytnutie nahromadených zručností Voyageru modelu AutoGPT zlepšilo zero-shot generalizáciu AutoGPT z 0/3 na 1–2/3 úspešnosť.

Čo obstojí – a čo nie

Hlavný výsledok je reálny a ablácie sú vykonané správne. Odstránenie každého komponentu jednotlivo a meranie rozdielu je správna metodika a poklesy o 93 % / 73 % sú natoľko výrazné, že žiadne vysvetlenie selektívnym výberom dát (cherry-picking) nezachráni základné modely. Výsledok zero-shot generalizácie je najsilnejším tvrdením: zručnosti napísané v jednom svete sa prenášajú do iného, pretože základné API Mineflayer zostáva rovnaké.

To, čo článok podceňuje, je úloha sandboxu. Minecraft poskytuje simulátor, ktorý okamžite zachytáva chyby, čisto sa resetuje a nikdy nemá vedľajšie účinky mimo hry. To je mimoriadny dar. Každý neúspešný pokus o zručnosť vytvorí čistú stopu vykonávania so štruktúrovanou chybovou správou. Seba-overovanie funguje, pretože úspech v Minecrafte je binárny a jednoznačný – buď máte diamantový krompáč, alebo nie. Žiadna z týchto vlastností neplatí pre skutočnú účtovnú knihu: chyba v podvojnom účtovníctve môže byť číselne vyrovnaná, ale sémanticky nesprávna; zaúčtovanú transakciu nie je možné vrátiť späť bez protizápisu; a odpoveď na otázku „bola zručnosť úspešná?“ si vyžaduje doménovo špecifickú finančnú logiku, ktorú herný engine neposkytuje.

Štruktúra nákladov je tiež ticho významná. Autori uvádzajú, že GPT-4 je 15× drahší ako GPT-3.5 na jedno volanie a každá úloha prebieha až v štyroch iteratívnych kolách promptovania plus jedno volanie na seba-overenie. Pre reláciu v Minecrafte je to prijateľné. Pre účtovného agenta spracovávajúceho stovky mesačných transakcií sa náklady na úlohu rýchlo sčítajú. Článok tento model nezohľadňuje.

Napokon, prieskumný cieľ kurikula je čistá maximalizácia objavov. To dáva zmysel v hre, kde viac položiek = viac schopností. Vo financiách nie je ekvivalentným cieľom „nájsť nové typy transakcií“, ale „správne a spoľahlivo spracovať všetky typy transakcií, vrátane tých vzácnych“. Problém návrhu kurikula je tu zložitejší.

Prečo je to dôležité pre finančnú AI

Vzor knižnice zručností je priamo aplikovateľný na agentov pre účtovné knihy Beancount. Agent účtovnej knihy, ktorý úspešne odsúhlasí bankový import, zapíše túto funkciu odsúhlasenia do perzistentného úložiska. Budúci mesiac, keď dorazí CSV z tej istej banky, vyhľadávanie okamžite vytiahne správny parser – netreba ho znova odvodzovať. Medzi klientmi s podobnou štruktúrou účtovnej osnovy môžu byť zručnosti napísané pre jednu účtovnú knihu testované proti inej.

Zaujímavejším ponaučením je oddelenie získavania zručností od ich opätovného použitia. Voyager ukazuje, že na dosiahnutie akumulácie nepotrebujete ladenie (fine-tuning): stačí dobre indexovaný sklad kódu plus schopný základný model. To je silný argument pre investovanie do vrstvy indexovania a vyhľadávania agenta účtovnej knihy namiesto trénovania modelov špecifických pre danú doménu.

Tam, kde analógia zlyháva, je bezpečnosť zápisu späť. V Minecrafte sa neúspešný pokus o zručnosť resetuje. V živej účtovnej knihe nie. Akákoľvek finančná adaptácia vzoru Voyager potrebuje staging vrstvu – režim spustenia nanečisto, kde sa kód kandidátskej zručnosti vykoná proti kópii účtovnej knihy, overí sa predvaha a až potom sa potvrdí. Seba-overenie tak, ako ho implementuje Voyager (druhé volanie GPT-4 s otázkou „fungovalo to?“), nie je dostatočne silné pre finančnú správnosť. Odpoveď musí dať samotná účtovná kniha.

Čo čítať ďalej

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models – rozširuje prístup knižnice zručností Voyageru o multimodálnu pamäť (vizuálne + textové plány), čím zvláda viac ako 200 úloh v Minecrafte; dôležité pre pochopenie toho, ako sa knižnice zručností škálujú do bohatších pozorovacích priestorov. (vyhľadávanie v arXiv: „JARVIS-1 open world Minecraft 2023“)
  • Lifelong Learning of Large Language Model based Agents: A Roadmap – prieskum z roku 2025 pokrývajúci konštrukciu, aplikáciu a hodnotenie agentov LLM s celoživotným učením; užitočné pre zasadenie Voyageru do širšieho kontextu literatúry a identifikáciu otvorených problémov. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) – zavádza získavanie zručností založené na posilňovanom učení (RL) do paradigmy knižnice v štýle Voyageru, čím rieši obmedzenie, že zručnosti Voyageru sa pridávajú len pri úspechu a nie sú vylepšované prostredníctvom signálu odmeny. [arXiv:2512.17102]