Перейти до основного вмісту

Voyager: Бібліотеки навичок як основа для безперервного навчання ШІ-агентів

· 7 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Бібліотеки навичок — постійне сховище виконуваних функцій, які агент може писати, витягувати та використовувати повторно — це архітектура, до якої я постійно повертаюся, коли думаю про довготривалу автоматизацію головної книги. Voyager (arXiv:2305.16291) від Гуаньчжи Вана, Аніми Анандкумар та колег з NVIDIA та Caltech є найбільш чіткою демонстрацією на сьогодні того, що така бібліотека може забезпечити справжнє безперервне навчання без оновлення градієнтів. Я читаю це зараз, тому що відповідь на питання — як агент накопичує багаторазову компетентність з часом? — це саме те питання, що постає перед будь-якою системою, яка має працювати зі зростаючою головною книгою Beancount місяць за місяцем.

Стаття

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager — це агент для Minecraft на базі GPT-4, який навчається безперервно без будь-якого донавчання параметрів (fine-tuning). Ван та інші описують три взаємопов'язані компоненти. По-перше, автоматичний навчальний план, який пропонує нові цілі, узгоджені з поточним інвентарем агента та станом світу, завжди спрямовуючи його до недосліджених територій. По-друге, бібліотека навичок із JavaScript-функцій, індексованих векторами вкладень (embedding vectors) їхніх описів природною мовою: щоразу, коли завдання виконується успішно, код зберігається; коли з'являється нове завдання, 5 найбільш релевантних навичок витягуються та додаються в промпт. По-третє, ітеративний цикл промптингу, який виконує до чотирьох раундів уточнення на завдання, спираючись на три канали зворотного зв'язку — стан середовища, помилки виконання та другий виклик GPT-4, що діє як самоверифікатор.

Агент змагається з ReAct, Reflexion та AutoGPT, адаптованими для Minecraft, і вони навіть не наближаються до нього. Voyager виявив 63 унікальні предмети за 160 ітерацій промптингу, що, за словами авторів, у 3,3 раза більше, ніж у попередніх передових методів. Він відкрив етапи технологічного дерева дерев'яного рівня у 15,3 раза швидше, а кам'яного — у 8,5 раза швидше. Що ще важливіше, це був єдиний метод, який взагалі досяг алмазного рівня. У тесті на перенесення з нульовим навчанням (zero-shot) — новий світ Minecraft, порожній інвентар, нові завдання — Voyager вирішив кожну ціль за 50 ітерацій; ReAct, Reflexion та AutoGPT не вирішили жодної.

Ключові ідеї

  • Навички зберігаються як код, а не як описи природною мовою. Пошук відбувається за подібністю вкладень опису, але виконання — це детермінований код, що дозволяє уникнути неоднозначності при спробі GPT-4 "згадати", як видобувати залізо з нуля.
  • Навчальний план враховує середовище: він запитує поточний стан гри перед пропозицією наступного завдання, тому агент ніколи не намагається досягти цілей, які неможливі за його поточного оснащення.
  • Видалення автоматичного навчального плану призвело до падіння кількості виявлених предметів на 93%. Видалення самоверифікації знизило продуктивність на 73%. Бібліотека навичок має найбільше значення на пізніх етапах — спочатку вона допомагає мало; після 80+ ітерацій агенти без неї виходять на плато.
  • GPT-4 випередив GPT-3.5 у 5,7 раза у виявленні унікальних предметів. Розрив у якості генерації коду є домінуючим фактором, а не глибина міркувань як така.
  • Бібліотека навичок є переносною: надання накопичених навичок Voyager агенту AutoGPT покращило його узагальнення з нульовим навчанням з 0/3 до 1–2/3 успішних спроб.

Що працює, а що ні

Основний результат є реальним, а абляційні дослідження проведено належним чином. Видалення кожного компонента окремо та вимірювання дельти — це правильна методологія, і падіння на 93%/73% є настільки вражаючими, що жодне пояснення вибірковим представленням даних не врятує базові моделі. Результат узагальнення з нульовим навчанням — найсильніше твердження: навички, написані в одному світі, переносяться в інший, тому що базовий API Mineflayer однаковий.

Чого стаття не доказує, так це ролі пісочниці. Minecraft надає симулятор, який миттєво фіксує помилки, чисто скидається і ніколи не має побічних ефектів поза грою. Це надзвичайний дар. Кожна невдала спроба навички створює чисте трасування виконання зі структурованим повідомленням про помилку. Самоверифікація працює, тому що успіх у Minecraft бінарний і однозначний — у вас або є алмазна кирка, або ні. Жодна з цих властивостей не характерна для реальної головної книги: помилка в подвійному записі може балансувати чисельно, але бути семантично неправильною; зафіксовану транзакцію неможливо скасувати без зустрічного запису; а відповідь на питання "чи була навичка успішною?" вимагає специфічної для фінансової галузі логіки, яку ігровий движок не надає.

Структура витрат також є досить значущою. Автори зазначають, що GPT-4 у 15 разів дорожчий за GPT-3.5 за один виклик, а кожне завдання виконує до чотирьох ітераційних раундів промптингу плюс виклик самоверифікації. Для сесії в Minecraft це прийнятно. Для бухгалтерського агента, що обробляє сотні транзакцій щомісяця, вартість одного завдання швидко зростає. У статті це не моделюється.

Нарешті, мета дослідження навчального плану — чиста максимізація відкриттів. Це має сенс у грі, де більше предметів = більше можливостей. У фінансах еквівалентна ціль не "знайти нові типи транзакцій", а "правильно та надійно обробляти всі типи транзакцій, включаючи рідкісні". Проблема дизайну навчального плану тут складніша.

Чому це важливо для фінансового ШІ

Паттерн бібліотеки навичок безпосередньо застосовний до агентів головної книги Beancount. Агент, який успішно узгодив імпорт з банку, записує цю функцію узгодження в постійне сховище. Наступного місяця, коли надходить CSV-файл того ж банку, пошук негайно видає потрібний парсер — без повторного виведення. Між клієнтами зі схожими структурами планів рахунків навички, написані для однієї книги, можуть бути протестовані на іншій.

Цікавішим уроком є розділення між набуттям навичок та їх повторним використанням. Voyager показує, що вам не потрібне донавчання для накопичення досвіду: добре індексоване сховище коду плюс здатна базова модель є достатніми. Це сильний аргумент на користь інвестування в рівень індексування та пошуку агента головної книги, а не в навчання моделі під конкретну область.

Там, де аналогія не працює, так це в безпеці запису. У Minecraft невдала спроба навички скидається. У реальній головній книзі — ні. Будь-яка фінансова адаптація паттерна Voyager потребує рівня підготовки (staging layer) — режиму пробного запуску, де код-кандидат навички виконується на копії книги, перевіряє пробний баланс і лише після цього фіксує зміни. Самоверифікація в тому вигляді, як її реалізує Voyager (другий виклик GPT-4 із запитанням "чи спрацювало це?"), недостатньо сильна для фінансової коректності. Вам потрібна сама головна книга для надання відповіді.

Що почитати далі

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — розширює підхід бібліотеки навичок Voyager мультимодальною пам'яттю (візуальні + текстові плани), виконуючи понад 200 завдань у Minecraft; актуально для розуміння того, як бібліотеки навичок масштабуються до багатших просторів спостереження. (Пошук в arXiv: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — огляд 2025 року, що охоплює побудову, застосування та оцінку агентів на базі LLM з безперервним навчанням; корисно для визначення місця Voyager у ширшій літературі та ідентифікації відкритих проблем. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — впроваджує набуття навичок на основі навчання з підкріпленням (RL) у парадигму бібліотеки стилю Voyager, вирішуючи обмеження, за якого навички Voyager додаються лише в разі успіху, а не вдосконалюються через сигнал винагороди. [arXiv:2512.17102]