跳到主要内容

Voyager:技能库作为终身学习 AI 智能体的基石

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

技能库——一种可供智能体编写、检索和重用的持久化可执行函数存储——是我在思考长周期账本自动化时反复回想的架构。Voyager (arXiv:2305.16291) 由来自英伟达、加州理工学院的 Guanzhi Wang、Anima Anandkumar 及其合作者开发,是迄今为止最清晰的证明,表明此类库可以在没有梯度更新的情况下实现真正的终身学习。我现在阅读它是因为它回答了一个问题——智能体如何随时间积累可重用的能力?——这正是任何预期能够逐月处理不断增长的 Beancount 账本的系统所面临的问题。

论文内容

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager 是一个由 GPT-4 驱动的 Minecraft 智能体,无需任何参数微调即可持续学习。Wang 等人描述了三个互锁的组件。首先是一个自动课程,它根据智能体当前的库存和世界状态提出校准后的新目标,始终推向未探索的领域。其次是一个技能库,其中包含由其自然语言描述的嵌入向量索引的 JavaScript 函数:每当任务成功时,获胜的代码就会被存储;每当有新任务到来时,检索并向提示词中注入前 5 个最相关的技能。第三是一个迭代提示循环,每个任务运行多达四轮细化,利用三个反馈通道——环境状态、执行错误以及作为自我验证器的第二次 GPT-4 调用。

该智能体与为 Minecraft 适配的 ReAct、Reflexion 和 AutoGPT 进行竞争,且优势巨大。Voyager 在 160 次提示迭代中发现了 63 个独特项目,作者报告称这比之前的最优技术多出 3.3 倍。它解锁木制级技术树里程碑的速度快了 15.3 倍,石制级快了 8.5 倍。更重要的是,它是唯一达到钻石级的方法。在零样本迁移测试中——全新的 Minecraft 世界、空的库存、新颖的任务——Voyager 在 50 次迭代内解决了每个目标;而 ReAct、Reflexion 和 AutoGPT 一个也没解决。

核心理念

  • 技能以代码形式存储,而非自然语言描述。检索是通过描述的嵌入相似度进行的,但执行是确定性的代码,这避开了让 GPT-4 从头开始“记住”如何开采铁矿的歧义。
  • 课程具有环境感知能力:它在提出下一个任务之前查询当前游戏状态,因此智能体绝不会尝试其当前装备无法实现的目标。
  • 移除自动课程后,发现的项目数量下降了 93%。移除自我验证后,性能下降了 73%。技能库在后期阶段最为重要——早期帮助较小;在 80 次以上的迭代中,没有它的智能体会进入平台期。
  • GPT-4 在独特项目发现方面优于 GPT-3.5 达 5.7 倍。代码生成的质量差距是主导因素,而非推理深度本身。
  • 技能库是可迁移的:将 Voyager 积累的技能交给 AutoGPT 后,AutoGPT 的零样本泛化成功率从 0/3 提高到 1–2/3。

有效之处与不足之处

核心结果是真实的,消融实验也做得非常到位。单独移除每个组件并测量变化是正确的方法论,而 93%/73% 的下降非常惊人,任何“挑选数据”的解释都无法挽救基准测试。零样本泛化结果是最强的论点:在一个世界中编写的技能可以迁移到另一个世界,因为底层的 Mineflayer API 是一样的。

论文低估了沙箱的作用。Minecraft 提供了一个模拟器,可以即时捕捉错误、干净地重置,并且从未在游戏外产生副作用。这是一份非凡的礼物。每次失败的技能尝试都会产生带有结构化错误消息的干净执行追踪。自我验证之所以有效,是因为 Minecraft 中的成功是二进制且明确的——你要么拥有钻石镐,要么没有。这些特性在真实的账本中都不存在:复式记账错误可能在数值上平衡,但在语义上是错误的;已确认的交易如果不通过冲销分录就无法回滚;而“技能是否成功?”需要游戏引擎无法提供的特定领域的财务逻辑。

成本结构也具有显著意义。作者指出,GPT-4 的每次调用成本是 GPT-3.5 的 15 倍,且每个任务运行多达四轮迭代提示加上一次自我验证调用。对于 Minecraft 会话,这是可以接受的。对于处理每月数百笔交易的会计智能体,每个任务的成本会迅速累积。论文没有对这一点进行建模。

最后,课程的探索目标纯粹是发现最大化。这在项目越多 = 能力越强的游戏中是有意义的。在金融领域,等效的目标不是“发现新的交易类型”,而是“可靠地正确处理所有交易类型,包括罕见的交易类型”。课程设计问题更加困难。

为什么这对金融 AI 很重要

技能库模式直接适用于 Beancount 账本智能体。一个成功对账银行导入的账本智能体将该对账函数写入持久存储。下个月,当同一家银行的 CSV 到达时,检索会立即呈现正确的解析器——无需重新推导。在具有相似会计科目表结构的客户之间,为一个账本编写的技能可以在另一个账本上进行测试。

更深刻的教训是技能获取与技能重用之间的分离。Voyager 表明,你不需要微调就能获得积累:一个索引良好的代码库加上一个能力出众的基础模型就足够了。这是一个强有力的论据,支持对账本智能体的索引和检索层进行投资,而不是进行特定领域的模型训练。

类比失效的地方在于回写安全性。在 Minecraft 中,失败的技能尝试会重置。在实时账本中,它不会。Voyager 模式的任何金融适配都需要一个暂存层——一种试运行模式,候选技能代码在账本副本上执行,验证试算平衡表,然后才提交。Voyager 实施的自我验证(第二次 GPT-4 调用询问“它成功了吗?”)对于财务正确性来说不够强大。你需要账本本身来回答。

延伸阅读

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models —— 利用多模态记忆(视觉 + 文本计划)扩展了 Voyager 的技能库方法,完成了 200 多个 Minecraft 任务;对于理解技能库如何扩展到更丰富的观察空间具有参考价值。(arXiv 搜索:"JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap —— 一篇 2025 年的综述,涵盖了终身学习 LLM 智能体的构建、应用和评估;有助于将 Voyager 置于更广泛的文献背景中并识别开放性问题。[arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) —— 在 Voyager 风格的库范式中引入了基于强化学习 (RL) 的技能获取,解决了 Voyager 只有在成功时才添加技能、而无法通过奖励信号进行优化的局限性。[arXiv:2512.17102]