Voyager：技能库作为终身学习 AI 智能体的基石

2026年5月8日 · 阅读需 7 分钟

Mike Thrift

Marketing Manager

技能库——一种可供智能体编写、检索和重用的持久化可执行函数存储——是我在思考长周期账本自动化时反复回想的架构。Voyager (arXiv:2305.16291) 由来自英伟达、加州理工学院的 Guanzhi Wang、Anima Anandkumar 及其合作者开发，是迄今为止最清晰的证明，表明此类库可以在没有梯度更新的情况下实现真正的终身学习。我现在阅读它是因为它回答了一个问题——智能体如何随时间积累可重用的能力？——这正是任何预期能够逐月处理不断增长的 Beancount 账本的系统所面临的问题。

论文内容

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager 是一个由 GPT-4 驱动的 Minecraft 智能体，无需任何参数微调即可持续学习。Wang 等人描述了三个互锁的组件。首先是一个自动课程，它根据智能体当前的库存和世界状态提出校准后的新目标，始终推向未探索的领域。其次是一个技能库，其中包含由其自然语言描述的嵌入向量索引的 JavaScript 函数：每当任务成功时，获胜的代码就会被存储；每当有新任务到来时，检索并向提示词中注入前 5 个最相关的技能。第三是一个迭代提示循环，每个任务运行多达四轮细化，利用三个反馈通道——环境状态、执行错误以及作为自我验证器的第二次 GPT-4 调用。

该智能体与为 Minecraft 适配的 ReAct、Reflexion 和 AutoGPT 进行竞争，且优势巨大。Voyager 在 160 次提示迭代中发现了 63 个独特项目，作者报告称这比之前的最优技术多出 3.3 倍。它解锁木制级技术树里程碑的速度快了 15.3 倍，石制级快了 8.5 倍。更重要的是，它是唯一达到钻石级的方法。在零样本迁移测试中——全新的 Minecraft 世界、空的库存、新颖的任务——Voyager 在 50 次迭代内解决了每个目标；而 ReAct、Reflexion 和 AutoGPT 一个也没解决。

核心理念

技能以代码形式存储，而非自然语言描述。检索是通过描述的嵌入相似度进行的，但执行是确定性的代码，这避开了让 GPT-4 从头开始“记住”如何开采铁矿的歧义。
课程具有环境感知能力：它在提出下一个任务之前查询当前游戏状态，因此智能体绝不会尝试其当前装备无法实现的目标。
移除自动课程后，发现的项目数量下降了 93%。移除自我验证后，性能下降了 73%。技能库在后期阶段最为重要——早期帮助较小；在 80 次以上的迭代中，没有它的智能体会进入平台期。
GPT-4 在独特项目发现方面优于 GPT-3.5 达 5.7 倍。代码生成的质量差距是主导因素，而非推理深度本身。
技能库是可迁移的：将 Voyager 积累的技能交给 AutoGPT 后，AutoGPT 的零样本泛化成功率从 0/3 提高到 1–2/3。

有效之处与不足之处

核心结果是真实的，消融实验也做得非常到位。单独移除每个组件并测量变化是正确的方法论，而 93%/73% 的下降非常惊人，任何“挑选数据”的解释都无法挽救基准测试。零样本泛化结果是最强的论点：在一个世界中编写的技能可以迁移到另一个世界，因为底层的 Mineflayer API 是一样的。

论文低估了沙箱的作用。Minecraft 提供了一个模拟器，可以即时捕捉错误、干净地重置，并且从未在游戏外产生副作用。这是一份非凡的礼物。每次失败的技能尝试都会产生带有结构化错误消息的干净执行追踪。自我验证之所以有效，是因为 Minecraft 中的成功是二进制且明确的——你要么拥有钻石镐，要么没有。这些特性在真实的账本中都不存在：复式记账错误可能在数值上平衡，但在语义上是错误的；已确认的交易如果不通过冲销分录就无法回滚；而“技能是否成功？”需要游戏引擎无法提供的特定领域的财务逻辑。

成本结构也具有显著意义。作者指出，GPT-4 的每次调用成本是 GPT-3.5 的 15 倍，且每个任务运行多达四轮迭代提示加上一次自我验证调用。对于 Minecraft 会话，这是可以接受的。对于处理每月数百笔交易的会计智能体，每个任务的成本会迅速累积。论文没有对这一点进行建模。

最后，课程的探索目标纯粹是发现最大化。这在项目越多 = 能力越强的游戏中是有意义的。在金融领域，等效的目标不是“发现新的交易类型”，而是“可靠地正确处理所有交易类型，包括罕见的交易类型”。课程设计问题更加困难。

为什么这对金融 AI 很重要

技能库模式直接适用于 Beancount 账本智能体。一个成功对账银行导入的账本智能体将该对账函数写入持久存储。下个月，当同一家银行的 CSV 到达时，检索会立即呈现正确的解析器——无需重新推导。在具有相似会计科目表结构的客户之间，为一个账本编写的技能可以在另一个账本上进行测试。

更深刻的教训是技能获取与技能重用之间的分离。Voyager 表明，你不需要微调就能获得积累：一个索引良好的代码库加上一个能力出众的基础模型就足够了。这是一个强有力的论据，支持对账本智能体的索引和检索层进行投资，而不是进行特定领域的模型训练。

类比失效的地方在于回写安全性。在 Minecraft 中，失败的技能尝试会重置。在实时账本中，它不会。Voyager 模式的任何金融适配都需要一个暂存层——一种试运行模式，候选技能代码在账本副本上执行，验证试算平衡表，然后才提交。Voyager 实施的自我验证（第二次 GPT-4 调用询问“它成功了吗？”）对于财务正确性来说不够强大。你需要账本本身来回答。

Voyager：技能库作为终身学习 AI 智能体的基石

论文内容

核心理念

有效之处与不足之处

为什么这对金融 AI 很重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文内容​

核心理念​

有效之处与不足之处​

为什么这对金融 AI 很重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文内容

核心理念

有效之处与不足之处

为什么这对金融 AI 很重要

延伸阅读