Voyager:生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ
スキルライブラリ(エージェントが作成、取得、再利用できる実行可能な関数の永続的な保存場所)は、私が長期的な元帳自動化について考える際に、繰り返し立ち返るアーキテクチャです。Guanzhi Wang氏、Anima Anandkumar氏、そしてNVIDIAとカリフォルニア工科大学の共同研究者らによるVoyager (arXiv:2305.16291) は、このようなライブラリが、勾配更新を伴うファインチューニングなしで真の生涯学習を可能にすることを、これまでで最も明確に示しました。私が今これを読んでいるのは、この論文が答えている問い「エージェントはいかにして再利用可能な能力を長期にわたって蓄積するのか?」が、月を追うごとに増大していくBeancount元帳を処理することが期待されるシステムが直面している問いそのものだからです。
論文の概要
Voyagerは、パラメータのファインチューニングを一切行わずに継続的に学習する、Minecraft向けのGPT-4駆動型エージェントです。Wangらは、3つの連動するコンポーネントについて述べています。第一に、エージェントの現在のインベントリと世界の状況に合わせて調整された新しい目標を提案し、常に未踏の領域へと押し進める自動カリキュラム。第二に、自然言語による説明の埋め込みベクトルでインデックス化されたJavaScript関数のスキルライブラリ。タスクが成功するたびに、成功したコードが保存されます。新しいタスクが発生すると、関連性の高い上位5つのスキルが取得され、プロンプトに注入されます。第三に、環境の状態、実行エラー、および自己検証者として機能する2つ目のGPT-4呼び出しという3つのフィードバックチャネルを利用して、タスクごとに最大4回の改善を行う反復プロンプティングループです。
このエージェントは、Minecraft用に調整されたReAct、Reflexion、AutoGPTと比較されましたが、その差は歴然でした。Voyagerは160回のプロンプト反復で63種類のユニークなアイテムを発見しました。これは著者らの報告によれば、従来の最先端技術の3.3倍に相当します。木製ツールの技術ツリーのマイルストーン到達は15.3倍速く、石製ツールは8.5倍速くなりました。さらに重要なことに、ダイヤモンド級に到達できたのはVoyagerだけでした。ゼロショット転移テスト(新しいMinecraftの世界、空のインベントリ、新しいタスク)において、Voyagerは50反復以内にすべての目 標を解決しましたが、ReAct、Reflexion、AutoGPTは一つも解決できませんでした。
主なアイデア
- スキルは自然言語の説明としてではなく、コードとして保存されます。取得は説明文の埋め込みの類似性によって行われますが、実行は決定論的なコードであり、GPT-4に鉄を採掘する方法をゼロから「思い出させる」際の曖昧さを回避しています。
- カリキュラムは環境を認識しています。次のタスクを提案する前に現在のゲームの状態を照会するため、エージェントが現在の装備では不可能な目標に挑戦することはありません。
- 自動カリキュラムを削除すると、発見されたアイテムの数は93%減少しました。自己検証を削除すると、パフォーマンスは73%低下しました。スキルライブラリは後半のステージで最も重要になります。初期段階ではあまり役に立ちませんが、80回以上の反復では、ライブラリのないエージェントは停滞してしまいます。
- GPT-4は、ユニークなアイテムの発見においてGPT-3.5を5.7倍上回りました。支配的な要因は推論の深さそのものではなく、コード生成の質にあります。
- スキルライブラリは転用可能です。Voyagerが蓄積したスキルをAutoGPTに与えたところ、AutoGPTのゼロショット一般化の成功率は0/3から1〜2/3へと向上しました。