Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리
스킬 라이브러리(Skill libraries) — 에이전트가 작성하고, 검색하고, 재사용할 수 있는 실행 가능한 함수들의 영구적인 저장소 — 는 제가 장기적인 원장 자동화를 생각할 때마다 다시 돌아오게 되는 아키텍처입니다. NVIDIA와 Caltech의 Guanzhi Wang, Anima Anandkumar 및 동료들의 연구인 Voyager(arXiv:2305.16291)는 이러한 라이브러리가 가중치 업데이트 없이도 진정한 평생 학습을 가능하게 한다는 것을 보여준 현재까지의 가장 명확한 사례입니다. 제가 지금 이 논문을 읽는 이유는 "에이전트가 시간이 지남에 따라 어떻게 재사용 가능한 능력을 축적하는가?"라는 질문에 대한 답이, 매달 늘어나는 Beancount 원장을 처리해야 하는 시스템이 직면한 질문과 정확히 일치하기 때문입니다.
논문 요약
Voyager는 파라미터 미세 조정 없이 지속적으로 학습하는 GPT-4 기반의 Minecraft 에이전트입니다. Wang 등은 세 가지 맞물린 구성 요소를 설명합니다. 첫째, 에이전트의 현재 인벤토리와 세계 상태에 맞춰 보정된 새로운 목표를 제안하여 항상 미개척 영역으로 밀어붙이는 **자동 커리큘럼(automatic curriculum)**입니다. 둘째, 자연어 설명의 임베딩 벡터로 색인화된 JavaScript 함수들의 **스킬 라이브러리(skill library)**입니다. 작업이 성공할 때마다 성공한 코드가 저장되며, 새로운 작업이 주어지면 가장 관련성이 높은 상위 5개의 스킬을 검색하여 프롬프트에 주입합니다. 셋째, 환경 상태, 실행 오류, 그리고 자가 검증기 역할을 하는 두 번째 GPT-4 호출이라는 세 가지 피드백 채널을 활용하여 작업당 최대 4회까지 개선을 수행하는 **반복적 프롬프팅 루프(iterative prompting loop)**입니다.
이 에이전트는 Minecraft에 최적화된 ReAct, Reflexion, AutoGPT와 경쟁했으며, 그 결과는 압도적이었습니다. Voyager는 160회의 프롬프트 반복 동안 63개의 고유 아이템을 발견했는데, 이는 저자들이 보고한 바에 따르면 기존 최신 기술보다 3.3배 더 많은 수치입니다. 나무 등급(wooden-tier) 테크 트리 마일스톤은 15.3배 더 빨리 달성했고, 돌 등급(stone-tier)은 8.5배 더 빨리 달성했습니다. 더 중요한 것은 다이아몬드 등급에 도달한 유일한 방법이었다는 점입니다. 제로샷 전이 테스트(새로운 Minecraft 세계, 빈 인벤토리, 새로운 작업)에서 Voyager는 50회 반복 내에 모든 목표를 해결한 반면, ReAct, Reflexion, AutoGPT는 단 하나도 해결하지 못했습니다.