メインコンテンツまでスキップ

Voyager:生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ

· 約10分
Mike Thrift
Mike Thrift
Marketing Manager

スキルライブラリ(エージェントが作成、取得、再利用できる実行可能な関数の永続的な保存場所)は、私が長期的な元帳自動化について考える際に、繰り返し立ち返るアーキテクチャです。Guanzhi Wang氏、Anima Anandkumar氏、そしてNVIDIAとカリフォルニア工科大学の共同研究者らによるVoyager (arXiv:2305.16291) は、このようなライブラリが、勾配更新を伴うファインチューニングなしで真の生涯学習を可能にすることを、これまでで最も明確に示しました。私が今これを読んでいるのは、この論文が答えている問い「エージェントはいかにして再利用可能な能力を長期にわたって蓄積するのか?」が、月を追うごとに増大していくBeancount元帳を処理することが期待されるシステムが直面している問いそのものだからです。

論文の概要

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyagerは、パラメータのファインチューニングを一切行わずに継続的に学習する、Minecraft向けのGPT-4駆動型エージェントです。Wangらは、3つの連動するコンポーネントについて述べています。第一に、エージェントの現在のインベントリと世界の状況に合わせて調整された新しい目標を提案し、常に未踏の領域へと押し進める自動カリキュラム。第二に、自然言語による説明の埋め込みベクトルでインデックス化されたJavaScript関数のスキルライブラリ。タスクが成功するたびに、成功したコードが保存されます。新しいタスクが発生すると、関連性の高い上位5つのスキルが取得され、プロンプトに注入されます。第三に、環境の状態、実行エラー、および自己検証者として機能する2つ目のGPT-4呼び出しという3つのフィードバックチャネルを利用して、タスクごとに最大4回の改善を行う反復プロンプティングループです。

このエージェントは、Minecraft用に調整されたReAct、Reflexion、AutoGPTと比較されましたが、その差は歴然でした。Voyagerは160回のプロンプト反復で63種類のユニークなアイテムを発見しました。これは著者らの報告によれば、従来の最先端技術の3.3倍に相当します。木製ツールの技術ツリーのマイルストーン到達は15.3倍速く、石製ツールは8.5倍速くなりました。さらに重要なことに、ダイヤモンド級に到達できたのはVoyagerだけでした。ゼロショット転移テスト(新しいMinecraftの世界、空のインベントリ、新しいタスク)において、Voyagerは50反復以内にすべての目標を解決しましたが、ReAct、Reflexion、AutoGPTは一つも解決できませんでした。

主なアイデア

  • スキルは自然言語の説明としてではなく、コードとして保存されます。取得は説明文の埋め込みの類似性によって行われますが、実行は決定論的なコードであり、GPT-4に鉄を採掘する方法をゼロから「思い出させる」際の曖昧さを回避しています。
  • カリキュラムは環境を認識しています。次のタスクを提案する前に現在のゲームの状態を照会するため、エージェントが現在の装備では不可能な目標に挑戦することはありません。
  • 自動カリキュラムを削除すると、発見されたアイテムの数は93%減少しました。自己検証を削除すると、パフォーマンスは73%低下しました。スキルライブラリは後半のステージで最も重要になります。初期段階ではあまり役に立ちませんが、80回以上の反復では、ライブラリのないエージェントは停滞してしまいます。
  • GPT-4は、ユニークなアイテムの発見においてGPT-3.5を5.7倍上回りました。支配的な要因は推論の深さそのものではなく、コード生成の質にあります。
  • スキルライブラリは転用可能です。Voyagerが蓄積したスキルをAutoGPTに与えたところ、AutoGPTのゼロショット一般化の成功率は0/3から1〜2/3へと向上しました。

評価できる点とそうでない点

核となる結果は本物であり、アブレーション(構成要素の削除実験)も適切に行われています。各コンポーネントを個別に削除してその変化を測定するのは正しい手法であり、93%/73%という低下は、ベースラインと比較してチェリーピッキング(都合の良いデータの抽出)では説明できないほど顕著です。ゼロショット一般化の結果は最も強力な主張です。ある世界で書かれたスキルが別の世界でも通用するのは、基礎となるMineflayer APIが同じだからです。

この論文が過小評価しているのは、サンドボックスの役割です。Minecraftは、エラーを即座にキャッチし、クリーンにリセットでき、ゲーム外に副作用を及ぼさないシミュレーターを提供しています。これは並外れた恩恵です。スキルの試行が失敗するたびに、構造化されたエラーメッセージを含むクリーンな実行トレースが生成されます。自己検証が機能するのは、Minecraftでの成功がバイナリで曖昧さがないからです。ダイヤモンドのツルハシを持っているか、持っていないかのどちらかです。しかし、実際の元帳にはこれらの性質は一つもありません。複式簿記のエラーは数値的には一致していても意味的に間違っている可能性があり、確定した取引は反対仕訳なしにはロールバックできず、「スキルが成功したか?」を判断するにはゲームエンジンが提供しないドメイン固有の財務ロジックが必要です。

コスト構造も密かに重要です。著者らは、GPT-4は呼び出しごとにGPT-3.5よりも15倍高価であり、すべてのタスクで最大4回の反復プロンプティングと1回の自己検証呼び出しが行われると指摘しています。Minecraftのセッションであれば、これは許容範囲内です。しかし、毎月何百もの取引を処理する会計エージェントにとって、タスクごとのコストは急速に膨れ上がります。論文ではこの点はモデル化されていません。

最後に、カリキュラムの探索目的は純粋な発見の最大化です。これは、アイテムが多いほど能力が高まるゲームでは理にかなっています。金融において、それに相当する目的は「新しい取引タイプを見つけること」ではなく、「稀なケースを含め、すべての取引タイプを確実に正しく処理すること」です。カリキュラムの設計問題はより困難になります。

財務AIにとってなぜ重要なのか

スキルライブラリのパターンは、Beancount元帳エージェントに直接応用できます。銀行のインポートデータの照合に成功したエージェントは、その照合関数を永続的なストアに書き込みます。翌月、同じ銀行のCSVが届いたとき、検索によって適切なパーサーが即座に浮上します。再派生させる必要はありません。似たような勘定科目体系を持つクライアント間であれば、ある元帳のために書かれたスキルを別の元帳でテストすることも可能です。

より興味深い教訓は、スキルの習得とスキルの再利用の分離です。Voyagerは、蓄積を得るためにファインチューニングは必要ないことを示しています。適切にインデックス化されたコードストアと有能なベースモデルがあれば十分です。これは、ドメイン固有のモデルトレーニングよりも、元帳エージェントのインデックス作成と検索レイヤーに投資すべきだという強力な論拠になります。

この比喩が崩れるのは、書き戻しの安全性です。Minecraftでは、失敗したスキルの試行はリセットされます。稼働中の元帳では、そうはいきません。Voyagerパターンを金融に適応させるには、ステージングレイヤーが必要です。つまり、候補となるスキルコードを元帳のコピーに対して実行し、試算表を検証し、その後にのみコミットするドライランモードです。Voyagerが実装している自己検証(「うまくいきましたか?」と尋ねる2回目のGPT-4呼び出し)は、財務的な正確性を保証するには不十分です。元帳自体に答えさせる必要があるのです。

次に読むべきもの

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — Voyagerのスキルライブラリアプローチをマルチモーダルメモリ(視覚+テキスト計画)で拡張し、200以上のMinecraftタスクを完遂。スキルライブラリがより豊かな観察空間にどのように拡張されるかを理解するのに役立ちます。(arXiv検索: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — LLMベースの生涯学習エージェントの構築、応用、評価を網羅した2025年のサーベイ。Voyagerをより広い文献の中に位置付け、未解決の問題を特定するのに有用です。[arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — Voyager型のライブラリパラダイムに強化学習(RL)ベースのスキル習得を導入。Voyagerのスキルが成功時にのみ追加され、報酬信号を通じて洗練されないという制限に対処しています。[arXiv:2512.17102]