본문으로 건너뛰기

Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

스킬 라이브러리(Skill libraries) — 에이전트가 작성하고, 검색하고, 재사용할 수 있는 실행 가능한 함수들의 영구적인 저장소 — 는 제가 장기적인 원장 자동화를 생각할 때마다 다시 돌아오게 되는 아키텍처입니다. NVIDIA와 Caltech의 Guanzhi Wang, Anima Anandkumar 및 동료들의 연구인 Voyager(arXiv:2305.16291)는 이러한 라이브러리가 가중치 업데이트 없이도 진정한 평생 학습을 가능하게 한다는 것을 보여준 현재까지의 가장 명확한 사례입니다. 제가 지금 이 논문을 읽는 이유는 "에이전트가 시간이 지남에 따라 어떻게 재사용 가능한 능력을 축적하는가?"라는 질문에 대한 답이, 매달 늘어나는 Beancount 원장을 처리해야 하는 시스템이 직면한 질문과 정확히 일치하기 때문입니다.

논문 요약

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager는 파라미터 미세 조정 없이 지속적으로 학습하는 GPT-4 기반의 Minecraft 에이전트입니다. Wang 등은 세 가지 맞물린 구성 요소를 설명합니다. 첫째, 에이전트의 현재 인벤토리와 세계 상태에 맞춰 보정된 새로운 목표를 제안하여 항상 미개척 영역으로 밀어붙이는 **자동 커리큘럼(automatic curriculum)**입니다. 둘째, 자연어 설명의 임베딩 벡터로 색인화된 JavaScript 함수들의 **스킬 라이브러리(skill library)**입니다. 작업이 성공할 때마다 성공한 코드가 저장되며, 새로운 작업이 주어지면 가장 관련성이 높은 상위 5개의 스킬을 검색하여 프롬프트에 주입합니다. 셋째, 환경 상태, 실행 오류, 그리고 자가 검증기 역할을 하는 두 번째 GPT-4 호출이라는 세 가지 피드백 채널을 활용하여 작업당 최대 4회까지 개선을 수행하는 **반복적 프롬프팅 루프(iterative prompting loop)**입니다.

이 에이전트는 Minecraft에 최적화된 ReAct, Reflexion, AutoGPT와 경쟁했으며, 그 결과는 압도적이었습니다. Voyager는 160회의 프롬프트 반복 동안 63개의 고유 아이템을 발견했는데, 이는 저자들이 보고한 바에 따르면 기존 최신 기술보다 3.3배 더 많은 수치입니다. 나무 등급(wooden-tier) 테크 트리 마일스톤은 15.3배 더 빨리 달성했고, 돌 등급(stone-tier)은 8.5배 더 빨리 달성했습니다. 더 중요한 것은 다이아몬드 등급에 도달한 유일한 방법이었다는 점입니다. 제로샷 전이 테스트(새로운 Minecraft 세계, 빈 인벤토리, 새로운 작업)에서 Voyager는 50회 반복 내에 모든 목표를 해결한 반면, ReAct, Reflexion, AutoGPT는 단 하나도 해결하지 못했습니다.

핵심 아이디어

  • 스킬은 자연어 설명이 아닌 코드로 저장됩니다. 검색은 설명에 대한 임베딩 유사도로 이루어지지만, 실행은 결정론적인 코드이므로 GPT-4에게 철광석을 캐는 방법을 처음부터 다시 "기억"해내라고 요청할 때 발생하는 모호함을 피할 수 있습니다.
  • 커리큘럼은 환경을 인식합니다. 다음 작업을 제안하기 전에 현재 게임 상태를 쿼리하므로 에이전트는 현재 장비로 불가능한 목표를 시도하지 않습니다.
  • 자동 커리큘럼을 제거하면 발견된 아이템 수가 93% 감소했습니다. 자가 검증을 제거하면 성능이 73% 하락했습니다. 스킬 라이브러리는 후기 단계에서 가장 중요합니다. 초기에는 큰 도움이 되지 않지만, 80회 이상 반복되면 라이브러리가 없는 에이전트는 정체 상태에 빠집니다.
  • 고유 아이템 발견에서 GPT-4는 GPT-3.5보다 5.7배 뛰어난 성능을 보였습니다. 추론 깊이 자체보다는 코드 생성 품질의 차이가 지배적인 요인이었습니다.
  • 스킬 라이브러리는 전이가 가능합니다. Voyager가 축적한 스킬을 AutoGPT에게 주었을 때 AutoGPT의 제로샷 일반화 성공률이 0/3에서 1~2/3로 향상되었습니다.

유효한 점과 그렇지 않은 점

핵심 결과는 실제적이며 절제 연구(ablation studies)도 적절하게 수행되었습니다. 각 구성 요소를 개별적으로 제거하고 변화를 측정하는 것은 올바른 방법론이며, 93%와 73%의 하락은 단순한 체리피킹으로 설명할 수 없을 만큼 인상적입니다. 제로샷 일반화 결과는 가장 강력한 주장입니다. 한 세계에서 작성된 스킬이 다른 세계로 전이되는 이유는 기반이 되는 Mineflayer API가 동일하기 때문입니다.

이 논문에서 과소평가된 부분은 샌드박스의 역할입니다. Minecraft는 오류를 즉시 포착하고, 깨끗하게 초기화되며, 게임 외부에서 부수 효과(side effects)가 전혀 발생하지 않는 시뮬레이터를 제공합니다. 이는 엄청난 혜택입니다. 실패한 모든 스킬 시도는 구조화된 오류 메시지와 함께 깨끗한 실행 추적을 생성합니다. 자가 검증이 작동하는 이유는 Minecraft에서의 성공이 이진적이고 명확하기 때문입니다. 다이아몬드 곡괭이가 있거나 없거나 둘 중 하나입니다. 실제 원장에서는 이러한 특성이 전혀 적용되지 않습니다. 복식 부기 오류는 수치적으로는 맞을지 몰라도 의미론적으로는 틀릴 수 있고, 확정된 거래(committed transaction)는 반대 분개 없이는 되돌릴 수 없으며, "스킬이 성공했는가?"를 판단하려면 게임 엔진이 제공하지 않는 도메인 특화된 재무 로직이 필요합니다.

비용 구조 또한 상당히 중요합니다. 저자들은 GPT-4가 호출당 GPT-3.5보다 15배 더 비싸다고 언급했으며, 모든 작업은 최대 4회의 반복적 프롬프팅 라운드와 자가 검증 호출을 거칩니다. Minecraft 세션에서는 이것이 허용될 수 있지만, 매달 수백 건의 거래를 처리하는 회계 에이전트에게는 작업당 비용이 빠르게 누적됩니다. 논문은 이 점을 모델링하지 않았습니다.

마지막으로, 커리큘럼의 탐색 목표는 순수한 발견 극대화입니다. 이는 아이템이 많을수록 능력이 향상되는 게임에서는 타당합니다. 금융에서 그에 상응하는 목표는 "새로운 거래 유형 찾기"가 아니라 "드문 유형을 포함한 모든 거래 유형을 안정적으로 올바르게 처리하기"입니다. 커리큘럼 설계 문제는 훨씬 더 어렵습니다.

금융 AI에 이것이 중요한 이유

스킬 라이브러리 패턴은 Beancount 원장 에이전트에 직접 적용 가능합니다. 은행 데이터를 성공적으로 대조(reconcile)한 원장 에이전트는 해당 대조 함수를 영구 저장소에 기록합니다. 다음 달에 동일한 은행의 CSV가 도착하면 검색을 통해 즉시 올바른 파서를 찾아내며, 다시 유도할 필요가 없습니다. 계정 과목표(chart-of-accounts) 구조가 유사한 여러 클라이언트 간에, 한 원장을 위해 작성된 스킬을 다른 원장에서 테스트해 볼 수도 있습니다.

더 흥미로운 교훈은 스킬 습득과 스킬 재사용의 분리입니다. Voyager는 능력을 축적하기 위해 미세 조정이 필요하지 않음을 보여줍니다. 잘 색인된 코드 저장소와 유능한 기본 모델만으로도 충분합니다. 이는 도메인 특화 모델 학습보다는 원장 에이전트의 색인 및 검색 레이어에 투자해야 한다는 강력한 논거가 됩니다.

비유가 어긋나는 지점은 쓰기 안전성(write-back safety)입니다. Minecraft에서는 실패한 스킬 시도가 리셋됩니다. 실제 원장에서는 그렇지 않습니다. Voyager 패턴을 금융에 적용하려면 스테이징 레이어(staging layer)가 필요합니다. 즉, 후보 스킬 코드가 원장 복사본에 대해 실행되어 합계 잔액 시산표(trial balance)를 검증한 후에만 커밋하는 드라이런 모드가 필요합니다. Voyager가 구현한 방식의 자가 검증(두 번째 GPT-4 호출로 "잘 됐어?"라고 묻는 것)은 재무적 정확성을 담보하기에는 부족합니다. 원장 자체가 직접 답하게 해야 합니다.

더 읽어보기

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — Voyager의 스킬 라이브러리 접근 방식을 다중 모드 메모리(시각 + 텍스트 계획)로 확장하여 200개 이상의 Minecraft 작업을 완료했습니다. 스킬 라이브러리가 더 풍부한 관찰 공간으로 어떻게 확장되는지 이해하는 데 유용합니다. (arXiv 검색: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — 평생 학습 LLM 에이전트의 구축, 응용 및 평가를 다루는 2025년 조사 논문입니다. Voyager를 더 넓은 문헌 속에서 파악하고 미해결 과제를 식별하는 데 유용합니다. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — Voyager 스타일의 라이브러리 패러다임에 RL 기반 스킬 습득을 도입하여, 스킬이 성공 시에만 추가되고 보상 신호를 통해 개선되지 않는 Voyager의 한계를 해결합니다. [arXiv:2512.17102]