پرش به محتوای اصلی

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

· زمان مطالعه 8 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

کتابخانه‌های مهارت — مخزنی پایدار از توابع قابل اجرا که یک عامل می‌تواند بنویسد، بازیابی کند و مجدداً استفاده کند — معماری‌ای است که هر زمان به خودکارسازی طولانی‌مدت دفتر کل فکر می‌کنم، به آن بازمی‌گردم. Voyager (arXiv:2305.16291)، از Guanzhi Wang، Anima Anandkumar و همکارانشان در NVIDIA و Caltech، واضح‌ترین نمایش تا به امروز است که نشان می‌دهد چنین کتابخانه‌ای می‌تواند یادگیری مادام‌العمر واقعی را بدون نیاز به به‌روزرسانی گرادیان (gradient updates) ممکن سازد. من اکنون آن را می‌خوانم زیرا سؤالی که پاسخ می‌دهد — چگونه یک عامل در طول زمان شایستگی‌های قابل استفاده مجدد را انباشته می‌کند؟ — دقیقاً همان سؤالی است که هر سیستمی که انتظار می‌رود ماه به ماه با یک دفتر کل Beancount در حال رشد سر و کار داشته باشد، با آن روبروست.

مقاله

2026-05-08-voyager-open-ended-embodied-agent-lifelong-learning

Voyager یک عامل مبتنی بر GPT-4 برای Minecraft است که بدون هیچ‌گونه تنظیم دقیق (fine-tuning) پارامتری، به‌طور مداوم یاد می‌گیرد. وانگ و همکاران سه جزء در هم تنیده را توصیف می‌کنند. اول، یک برنامه درسی خودکار که اهداف جدیدی را متناسب با موجودی فعلی و وضعیت دنیای عامل پیشنهاد می‌دهد و همیشه به سمت قلمروهای کاوش‌نشده حرکت می‌کند. دوم، یک کتابخانه مهارت شامل توابع جاوا اسکریپت که با بردارهای جاسازی (embedding vectors) توصیفات زبان طبیعی آن‌ها ایندکس شده‌اند: هر زمان که یک کار با موفقیت انجام شود، کد برنده ذخیره می‌شود؛ هر زمان که کار جدیدی از راه می‌رسد، ۵ مهارت مرتبط‌تر بازیابی و به پرامپت تزریق می‌شوند. سوم، یک حلقه پرامپت تکرار شونده که تا چهار دور اصلاح را برای هر کار اجرا می‌کند و از سه کانال بازخورد — وضعیت محیط، خطاهای اجرا و یک فراخوانی دوم GPT-4 که به عنوان تأییدکننده خودکار عمل می‌کند — بهره می‌برد.

این عامل با ReAct، Reflexion و AutoGPT که برای Minecraft سازگار شده بودند رقابت کرد و برتری آن مطلق بود. Voyager در ۱۶۰ تکرار پرامپت، ۶۳ مورد منحصر به فرد را کشف کرد که نویسندگان آن را ۳.۳ برابر بیشتر از پیشرفته‌ترین مدل‌های قبلی گزارش کرده‌اند. این عامل نقاط عطف درخت فناوری سطح چوبی را ۱۵.۳ برابر سریع‌تر و سطح سنگی را ۸.۵ برابر سریع‌تر باز کرد. مهم‌تر از آن، Voyager تنها روشی بود که اصلاً توانست به سطح الماس برسد. در یک تست انتقال صفر-شات (zero-shot transfer test) — یک دنیای جدید Minecraft، موجودی خالی و وظایف نو — Voyager تمام اهداف را در کمتر از ۵۰ تکرار حل کرد؛ در حالی که ReAct، Reflexion و AutoGPT هیچ‌کدام را حل نکردند.

ایده‌های کلیدی

  • مهارت‌ها به صورت کد ذخیره می‌شوند، نه به عنوان توصیفات زبان طبیعی. بازیابی از طریق تشابه جاسازی روی توصیف انجام می‌شود، اما اجرا کد قطعی (deterministic) است که ابهام درخواست از GPT-4 برای "به یاد آوردن" نحوه استخراج آهن از صفر را دور می‌زند.
  • برنامه درسی از محیط آگاه است: قبل از پیشنهاد وظیفه بعدی، وضعیت فعلی بازی را پرس‌وجو می‌کند، بنابراین عامل هرگز برای اهدافی که تجهیزات فعلی‌اش آن‌ها را غیرممکن می‌کند، تلاش نمی‌کند.
  • حذف برنامه درسی خودکار باعث کاهش ۹۳ درصدی در تعداد موارد کشف شده شد. حذف تأیید خودکار عملکرد را ۷۳ درصد کاهش داد. کتابخانه مهارت در مراحل بعدی بیشترین اهمیت را دارد — در ابتدا کمک چندانی نمی‌کند؛ اما در تکرار ۸۰ به بعد، عامل‌های بدون آن به بن‌بست می‌رسند.
  • GPT-4 در کشف موارد منحصر به فرد ۵.۷ برابر بهتر از GPT-3.5 عمل کرد. شکاف کیفیت تولید کد عامل غالب است، نه لزوماً عمق استدلال.
  • کتابخانه مهارت قابل انتقال است: دادن مهارت‌های انباشته شده Voyager به AutoGPT، تعمیم صفر-شات آن را از ۰/۳ به ۱-۲/۳ موفقیت بهبود بخشید.

آنچه پابرجا می‌ماند — و آنچه نمی‌ماند

نتیجه اصلی واقعی است و آزمایش‌های حذف (ablation) به درستی انجام شده‌اند. حذف هر جزء به صورت جداگانه و اندازه‌گیری تغییر حاصل، متدولوژی درستی است و کاهش‌های ۹۳٪ و ۷۳٪ آنقدر چشمگیر هستند که هیچ توجیهی مبنی بر انتخاب گزینشی داده‌ها (cherry-picking) نمی‌تواند مدل‌های پایه را نجات دهد. نتیجه تعمیم صفر-شات قوی‌ترین ادعاست: مهارت‌های نوشته شده در یک دنیا به دنیای دیگر منتقل می‌شوند زیرا API زیربنایی Mineflayer یکسان است.

چیزی که مقاله کمتر به آن پرداخته، نقش محیط سندباکس است. Minecraft شبیه‌سازی را فراهم می‌کند که خطاها را فوراً شناسایی می‌کند، به‌طور تمیز ریست می‌شود و هرگز اثرات جانبی خارج از بازی ندارد. این یک موهبت فوق‌العاده است. هر تلاش ناموفق برای مهارت، یک ردپای اجرای تمیز با پیام خطای ساختاریافته ایجاد می‌کند. تأیید خودکار کار می‌کند زیرا موفقیت در Minecraft باینری و بدون ابهام است — یا کلنگ الماس دارید یا ندارید. هیچ‌کدام از این ویژگی‌ها در یک دفتر کل واقعی وجود ندارد: یک خطای دوطرفه ممکن است از نظر عددی تراز باشد اما از نظر معنایی اشتباه باشد؛ یک تراکنش ثبت شده را نمی‌توان بدون ثبت یک ورودی معکوس بازگرداند؛ و پاسخ به این سوال که "آیا مهارت موفقیت‌آمیز بود؟" مستلزم منطق مالی خاص دامنه است که یک موتور بازی ارائه نمی‌دهد.

ساختار هزینه نیز به‌طور قابل توجهی مهم است. نویسندگان اشاره می‌کنند که GPT-4 به ازای هر فراخوانی ۱۵ برابر گران‌تر از GPT-3.5 است و هر وظیفه تا چهار دور پرامپت تکراری به علاوه یک فراخوانی تأیید خودکار را اجرا می‌کند. برای یک جلسه Minecraft این قابل قبول است. برای یک عامل حسابداری که صدها تراکنش ماهانه را پردازش می‌کند، هزینه هر وظیفه به سرعت انباشته می‌شود. مقاله این موضوع را مدل‌سازی نمی‌کند.

در نهایت، هدف کاوش در برنامه درسی صرفاً به حداکثر رساندن اکتشاف است. این در بازی‌ای که موارد بیشتر = توانایی بیشتر است، منطقی به نظر می‌رسد. در امور مالی، هدف معادل "یافتن انواع تراکنش‌های جدید" نیست، بلکه "مدیریت صحیح و قابل اعتماد همه انواع تراکنش‌ها، از جمله موارد نادر" است. مسئله طراحی برنامه درسی در اینجا دشوارتر است.

چرا این برای هوش مصنوعی در امور مالی اهمیت دارد

الگوی کتابخانه مهارت مستقیماً برای عامل‌های دفتر کل Beancount قابل اجرا است. یک عامل دفتر کل که با موفقیت یک ورودی بانکی را تطبیق می‌دهد، آن تابع تطبیق را در یک مخزن پایدار می‌نویسد. ماه آینده، وقتی CSV همان بانک می‌رسد، بازیابی فوراً پارسر صحیح را پیدا می‌کند — بدون نیاز به استخراج مجدد. در میان مشتریانی با ساختار کدینگ حساب (chart-of-accounts) مشابه، مهارت‌های نوشته شده برای یک دفتر کل را می‌توان روی دفتر کل دیگری آزمایش کرد.

درس جالب‌تر، جدایی بین کسب مهارت و استفاده مجدد از مهارت است. Voyager نشان می‌دهد که برای دستیابی به انباشت دانش نیازی به fine-tuning ندارید: یک مخزن کد با ایندکس‌گذاری مناسب به همراه یک مدل پایه توانمند کافی است. این استدلال قوی برای سرمایه‌گذاری روی لایه ایندکس‌گذاری و بازیابی یک عامل دفتر کل است، به جای آموزش مدل‌های خاص دامنه.

جایی که این قیاس از هم می‌پاشد، امنیت بازنویسی داده‌ها (write-back safety) است. در Minecraft، یک تلاش ناموفق برای مهارت ریست می‌شود. در یک دفتر کل زنده، اینطور نیست. هرگونه انطباق مالی از الگوی Voyager به یک لایه میانی (staging) نیاز دارد — حالتی برای اجرای آزمایشی که در آن کد مهارت کاندید روی یک کپی از دفتر کل اجرا می‌شود، تراز آزمایشی را تأیید می‌کند و تنها پس از آن ثبت نهایی را انجام می‌دهد. تأیید خودکار همانطور که Voyager پیاده‌سازی کرده است (یک فراخوانی دوم GPT-4 که می‌پرسد "آیا کار کرد؟") برای صحت مالی به اندازه کافی قوی نیست. شما به خودِ دفتر کل نیاز دارید تا پاسخ دهد.

چه چیزی را بعداً بخوانیم

  • JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — رویکرد کتابخانه مهارت Voyager را با حافظه چندوجهی (طرح‌های بصری + متنی) گسترش می‌دهد و بیش از ۲۰۰ وظیفه Minecraft را انجام می‌دهد؛ برای درک چگونگی مقیاس‌پذیری کتابخانه‌های مهارت به فضاهای مشاهده غنی‌تر مفید است. (جستجوی arXiv: "JARVIS-1 open world Minecraft 2023")
  • Lifelong Learning of Large Language Model based Agents: A Roadmap — یک بررسی جامع در سال ۲۰۲۵ که ساخت، کاربرد و ارزیابی عامل‌های LLM مادام‌العمر را پوشش می‌دهد؛ برای قرار دادن Voyager در ادبیات گسترده‌تر و شناسایی مسائل باز مفید است. [arXiv:2501.07278]
  • Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — یادگیری تقویت‌شده برای کسب مهارت را به پارادایم کتابخانه به سبک Voyager وارد می‌کند و این محدودیت را که مهارت‌های Voyager فقط در صورت موفقیت اضافه می‌شوند و با سیگنال پاداش اصلاح نمی‌شوند، برطرف می‌کند. [arXiv:2512.17102]