Перейти к контенту

Voyager: Библиотеки навыков как основа для непрерывного обучения ИИ-агентов

· 7 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Библиотеки навыков — постоянное хранилище исполняемых функций, которые агент может создавать, извлекать и использовать повторно — это архитектура, к которой я постоянно возвращаюсь, размышляя о долгосрочной автоматизации учета. Voyager (arXiv:2305.16291) от Гуанчжи Ванга, Анимы Анандкумар и их коллег из NVIDIA и Caltech является самым наглядным на сегодняшний день доказательством того, что такая библиотека может обеспечить подлинное непрерывное обучение без обновления градиентов. Я читаю эту работу сейчас, потому что ответ на вопрос, который она ставит — как агент накапливает многоразовую компетентность с течением времени? — это именно тот вопрос, который стоит перед любой системой, предназначенной для ведения растущего гроссбуха Beancount месяц за месяцем.

Описание работы

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager — это агент для Minecraft на базе GPT-4, который обучается непрерывно без какого-либо дообучения параметров. Ванг и соавторы описывают три взаимосвязанных компонента. Во-первых, автоматический учебный план, который предлагает новые цели, откалиброванные в соответствии с текущим инвентарем агента и состоянием мира, всегда стремясь к неизведанным территориям. Во-вторых, библиотека навыков, состоящая из JavaScript-функций, индексируемых векторами эмбеддингов их описаний на естественном языке: при успешном выполнении задачи удачный код сохраняется; при поступлении новой задачи извлекаются 5 наиболее релевантных навыков и вставляются в промпт. В-третьих, итеративный цикл промптинга, который выполняет до четырех раундов уточнения для каждой задачи, опираясь на три канала обратной связи: состояние среды, ошибки выполнения и второй вызов GPT-4 в качестве системы самопроверки.

Агент соревновался с ReAct, Reflexion и AutoGPT, адаптированными для Minecraft, и разрыв оказался колоссальным. Voyager обнаружил 63 уникальных предмета за 160 итераций промптинга, что, по сообщениям авторов, в 3,3 раза больше, чем у предыдущих передовых методов. Он разблокировал вехи технологического древа деревянного уровня в 15,3 раза быстрее, а каменного — в 8,5 раза быстрее. Что еще важнее, это был единственный метод, который вообще достиг алмазного уровня. В тесте на перенос обучения (zero-shot transfer) — новый мир Minecraft, пустой инвентарь, новые задачи — Voyager решил каждую цель в течение 50 итераций; ReAct, Reflexion и AutoGPT не решили ни одной.

Ключевые идеи

  • Навыки хранятся в виде кода, а не в виде описаний на естественном языке. Поиск осуществляется по сходству эмбеддингов описания, но выполнение представляет собой детерминированный код, что позволяет избежать двусмысленности при попытке заставить GPT-4 «вспомнить», как добывать железо с нуля.
  • Учебный план учитывает окружающую среду: он запрашивает текущее состояние игры перед предложением следующей задачи, поэтому агент никогда не пытается достичь целей, которые невозможны при его текущем снаряжении.
  • Удаление автоматического учебного плана привело к падению количества обнаруженных предметов на 93%. Удаление самопроверки снизило производительность на 73%. Библиотека навыков наиболее важна на поздних этапах — в начале она помогает мало, но после 80+ итераций агенты без нее выходят на плато.
  • GPT-4 превзошел GPT-3.5 в 5,7 раза по количеству обнаруженных уникальных предметов. Разрыв в качестве генерации кода является доминирующим фактором, а не глубина рассуждений как таковая.
  • Библиотека навыков переносима: передача накопленных навыков Voyager агенту AutoGPT улучшила обобщающую способность AutoGPT (zero-shot) с 0/3 до 1–2/3 успеха.

Что подтверждается, а что — нет

Основной результат реален, а абляционные исследования проведены должным образом. Удаление каждого компонента по отдельности и измерение разницы — это правильная методология, а падения на 93% и 73% достаточно поразительны, чтобы никакие подогнанные результаты не спасли базовые модели. Результат переноса обучения (zero-shot) является самым сильным утверждением: навыки, написанные в одном мире, переносятся в другой, потому что базовый API Mineflayer остается неизменным.

В статье недооценивается роль «песочницы». Minecraft предоставляет симулятор, который мгновенно отлавливает ошибки, чисто перезапускается и никогда не имеет побочных эффектов за пределами игры. Это необычайный дар. Каждая неудачная попытка навыка создает чистую трассировку выполнения со структурированным сообщением об ошибке. Самопроверка работает, потому что успех в Minecraft бинарен и однозначен — у вас либо есть алмазная кирка, либо нет. Ни одно из этих свойств не характерно для реального гроссбуха: ошибка двойной записи может сходиться численно, но быть семантически неверной; зафиксированную транзакцию нельзя отменить без корректирующей записи; а вопрос «был ли навык успешным?» требует специфической финансовой логики, которую игровой движок не предоставляет.

Структура затрат также весьма значима. Авторы отмечают, что GPT-4 обходится в 15 раз дороже GPT-3.5 за вызов, а каждая задача включает до четырех итеративных раундов промптинга плюс вызов самопроверки. Для сессии в Minecraft это допустимо. Для бухгалтерского агента, обрабатывающего сотни ежемесячных транзакций, стоимость каждой задачи быстро накапливается. В статье это не моделируется.

Наконец, цель исследования в учебном плане — это чистая максимизация открытий. Это имеет смысл в игре, где больше предметов = больше возможностей. В финансах эквивалентная цель — не «найти новые типы транзакций», а «правильно и надежно обрабатывать все типы транзакций, включая редкие». Проблема разработки учебного плана здесь сложнее.

Почему это важно для финансового ИИ

Модель библиотеки навыков напрямую применима к агентам для Beancount. Агент гроссбуха, который успешно сопоставил банковский импорт, записывает эту функцию сопоставления в постоянное хранилище. В следующем месяце, когда придет CSV из того же банка, поиск немедленно выдаст нужный парсер — без повторного вывода. В разных клиентах с похожими планами счетов навыки, написанные для одного гроссбуха, могут быть протестированы на другом.

Более интересный урок заключается в разделении между приобретением навыков и их повторным использованием. Voyager показывает, что для накопления опыта не нужно дообучение: достаточно хорошо индексированного хранилища кода и мощной базовой модели. Это веский аргумент в пользу инвестиций в уровень индексации и извлечения данных для агента гроссбуха, а не в обучение модели под конкретную область.

Сходство нарушается в вопросах безопасности записи. В Minecraft неудачная попытка навыка сбрасывается. В живом гроссбухе — нет. Любая финансовая адаптация модели Voyager нуждается в промежуточном слое (staging layer) — режиме предварительного запуска, где код потенциального навыка выполняется на копии гроссбуха, проверяет пробный баланс и только после этого фиксируется. Самопроверка в том виде, в каком её реализует Voyager (второй вызов GPT-4 с вопросом «получилось ли?»), недостаточно надежна для финансовой точности. Ответ должен давать сам гроссбух.

Что почитать дальше

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — расширяет подход Voyager к библиотеке навыков с помощью мультимодальной памяти (визуальные + текстовые планы), выполняя более 200 задач в Minecraft; актуально для понимания того, как библиотеки навыков масштабируются на более богатые пространства наблюдений. (Поиск в arXiv: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — обзор 2025 года, охватывающий создание, применение и оценку агентов на базе LLM с непрерывным обучением; полезно для понимания места Voyager в широком контексте литературы и выявления открытых проблем. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — вводит приобретение навыков на основе обучения с подкреплением (RL) в парадигму библиотек в стиле Voyager, решая проблему того, что в Voyager навыки добавляются только при успехе, а не совершенствуются через сигнал вознаграждения. [arXiv:2512.17102]