Voyager: کتابخانههای مهارت به عنوان پایهای برای یادگیری مادامالعمر عاملهای هوش مصنوعی
کتابخانههای مهارت — مخزنی پایدار از توابع قابل اجرا که یک عامل میتواند بنویسد، بازیابی کند و مجدداً استفاده کند — معماریای است که هر زمان به خودکارسازی طولانیمدت دفتر کل فکر میکنم، به آن بازمیگردم. Voyager (arXiv:2305.16291)، از Guanzhi Wang، Anima Anandkumar و همکارانشان در NVIDIA و Caltech، واضحترین نمایش تا به امروز است که نشان میدهد چنین کتابخانهای میتواند یادگیری مادامالعمر واقعی را بدون نیاز به بهروزرسانی گرادیان (gradient updates) ممکن سازد. من اکنون آن را میخوانم زیرا سؤالی که پاسخ میدهد — چگونه یک عامل در طول زمان شایستگیهای قابل استفاده مجدد را انباشته میکند؟ — دقیقاً همان سؤالی است که هر سیستمی که انتظار میرود ماه به ماه با یک دفتر کل Beancount در حال رشد سر و کار داشته باشد، با آن روبروست.
مقاله
Voyager یک عامل مبتنی بر GPT-4 برای Minecraft است که بدون هیچگونه تنظیم دقیق (fine-tuning) پارامتری، بهطور مداوم یاد میگیرد. وانگ و همکاران سه جزء در هم تنیده را توصیف میکنند. اول، یک برنامه درسی خودکار که اهداف جدیدی را متناسب با موجودی فعلی و وضعیت دنیای عامل پیشنهاد میدهد و همیشه به سمت قلمروهای کاوشنشده حرکت میکند. دوم، یک کتابخانه مهارت شامل توابع جاوا اسکریپت که با بردارهای جاسازی (embedding vectors) توصیفات زبان طبیعی آنها ایندکس شدهاند: هر زمان که یک کار با موفقیت انجام شود، کد برنده ذخیره میشود؛ هر زمان که کار جدیدی از راه میرسد، ۵ مهارت مرتبطتر بازیابی و به پرامپت تزریق میشوند. سوم، یک حلقه پرامپت تکرار شونده که تا چهار دور اصلاح را برای هر کار اجرا میکند و از سه کانال بازخورد — وضعیت محیط، خطاهای اجرا و یک فراخوانی دوم GPT-4 که به عنوان تأییدکننده خودکار عمل میکند — بهره میبرد.
این عامل با ReAct، Reflexion و AutoGPT که برای Minecraft سازگار شده بودند رقابت کرد و برتری آن مطلق بود. Voyager در ۱۶۰ تکرار پرامپت، ۶۳ مورد منحصر به فرد را کشف کرد که نویسندگان آن را ۳.۳ برابر بیشتر از پیشرفتهترین مدلهای قبلی گزارش کردهاند. این عامل نقاط عطف درخت فناوری سطح چوبی را ۱۵.۳ برابر سریعتر و سطح سنگی را ۸.۵ برابر سریعتر باز کرد. مهمتر از آن، Voyager تنها روشی بود که اصلاً توانست به سطح الماس برسد. در یک تست انتقال صفر-شات (zero-shot transfer test) — یک دنیای جدید Minecraft، موجودی خالی و وظایف نو — Voyager تمام اهداف را در کمتر از ۵۰ تکرار حل کرد؛ در حالی که ReAct، Reflexion و AutoGPT هیچکدام را حل نکردند.
ایدههای کلیدی
- مهارتها به صورت کد ذخیره میشوند، نه به عنوان توصیفات زبان طبیعی. بازیابی از طریق تشابه جاسازی روی توصیف انجام میشود، اما اجرا کد قطعی (deterministic) است که ابهام درخواست از GPT-4 برای "به یاد آوردن" نحوه استخراج آهن از صفر را دور میزند.
- برنامه درسی از محیط آگاه است: قبل از پیشنهاد وظیفه بعدی، وضعیت فعلی بازی را پرسوجو میکند، بنابراین عامل هرگز برای اهدافی که تجهیزات فعلیاش آنها را غیرممکن میکند، تلاش نمیکند.
- حذف برنامه درسی خودکار باعث کاهش ۹۳ درصدی در تعداد موارد کشف شده شد. حذف تأیید خودکار عملکرد را ۷۳ درصد کاهش داد. کتابخانه مهارت در مراحل بعدی بیشترین اهمیت را دارد — در ابتدا کمک چندانی نمیکند؛ اما در تکرار ۸۰ به بعد، عاملهای بدون آن به بنبست میرسند.
- GPT-4 در کشف موارد منحصر به فرد ۵.۷ برابر بهتر از GPT-3.5 عمل کرد. شکاف کیفیت تولید کد عامل غالب است، نه لزوماً عمق استدلال.
- کتابخانه مهارت قابل انتقال است: دادن مهارتهای انباشته شده Voyager به AutoGPT، تعمیم صفر-شات آن را از ۰/۳ به ۱-۲/۳ موفقیت بهبود بخشید.
آنچه پابرجا میماند — و آنچه نمیماند
نتیجه اصلی واقعی است و آزمایش های حذف (ablation) به درستی انجام شدهاند. حذف هر جزء به صورت جداگانه و اندازهگیری تغییر حاصل، متدولوژی درستی است و کاهشهای ۹۳٪ و ۷۳٪ آنقدر چشمگیر هستند که هیچ توجیهی مبنی بر انتخاب گزینشی دادهها (cherry-picking) نمیتواند مدلهای پایه را نجات دهد. نتیجه تعمیم صفر-شات قویترین ادعاست: مهارتهای نوشته شده در یک دنیا به دنیای دیگر منتقل میشوند زیرا API زیربنایی Mineflayer یکسان است.
چیزی که مقاله کمتر به آن پرداخته، نقش محیط سندباکس است. Minecraft شبیهسازی را فراهم میکند که خطاها را فوراً شناسایی میکند، بهطور تمیز ریست میشود و هرگز اثرات جانبی خارج از بازی ندارد. این یک موهبت فوقالعاده است. هر تلاش ناموفق برای مهارت، یک ردپای اجرای تمیز با پیام خطای ساختاریافته ایجاد میکند. تأیید خودکار کار میکند زیرا موفقیت در Minecraft باینری و بدون ابهام است — یا کلنگ الماس دارید یا ندارید. هیچکدام از این ویژگیها در یک دفتر کل واقعی وجود ندارد: یک خطای دوطرفه ممکن است از نظر عددی تراز باشد اما از نظر معنایی اشتباه باشد؛ یک تراکنش ثبت شده را نمیتوان بدون ثبت یک ورودی معکوس بازگرداند؛ و پاسخ به این سوال که "آیا مهارت موفقیتآمیز بود؟" مستلزم منطق مالی خاص دامنه است که یک موتور بازی ارائه نمیدهد.
ساختار هزینه نیز بهطور قابل توجهی مهم است. نویسندگان اشاره میکنند که GPT-4 به ازای هر فراخوانی ۱۵ برابر گرانتر از GPT-3.5 است و هر وظیفه تا چهار دور پرامپت تکراری به علاوه یک فراخوانی تأیید خودکار را اجرا میکند. برای یک جلسه Minecraft این قابل قبول است. برای یک عامل حسابداری که صدها تراکنش ماهانه را پردازش میکند، هزینه هر وظیفه به سرعت انباشته میشود. مقاله این موضوع را مدلسازی نمیکند.
در نهایت، هدف کاوش در برنامه درسی صرفاً به حداکثر رساندن اکتشاف است. این در بازیای که موارد بیشتر = توانایی بیشتر است، منطقی به نظر میرسد. در امور مالی، هدف معادل "یافتن انواع تراکنشهای جدید" نیست، بلکه "مدیریت صحیح و قابل اعتماد همه انواع تراکنشها، از جمله موارد نادر" است. مسئله طراحی برنامه درسی در اینجا دشوارتر است.
چرا این برای هوش مصنوعی در امور مالی اهمیت دارد
الگوی کتابخانه مهارت مستقیماً برای عاملهای دفتر کل Beancount قابل اجرا است. یک عامل دفتر کل که با موفقیت یک ورودی بانکی را تطبیق میدهد، آن تابع تطبیق را در یک مخزن پایدار مینویسد. ماه آینده، وقتی CSV همان بانک میرسد، بازیابی فوراً پارسر صحیح را پیدا میکند — بدون نیاز به استخراج مجدد. در میان مشتریانی با ساختار کدینگ حساب (chart-of-accounts) مشابه، مهارتهای نوشته شده برای یک دفتر کل را میتوان روی دفتر کل دیگری آزمایش کرد.
درس جالبتر، جدایی بین کسب مهارت و استفاده مجدد از مهارت است. Voyager نشان میدهد که برای دستیابی به انباشت دانش نیازی به fine-tuning ندارید: یک مخزن کد با ایندکسگذاری مناسب به همراه یک مدل پایه توانمند کافی است. این استدلال قوی برای سرمایهگذاری روی لایه ایندکسگذاری و بازیابی یک عامل دفتر کل است، به جای آموزش مدلهای خاص دامنه.
جایی که این قیاس از هم میپاشد، امنیت بازنویسی دادهها (write-back safety) است. در Minecraft، یک تلاش ناموفق برای مهارت ریست میشود. در یک دفتر کل زنده، اینطور نیست. هرگونه انطباق مالی از الگوی Voyager به یک لایه میانی (staging) نیاز دارد — حالتی برای اجرای آزمایشی که در آن کد مهارت کاندید روی یک کپی از دفتر کل اجرا میشود، تراز آزمایشی را تأیید میکند و تنها پس از آن ثبت نهایی را انجام میدهد. تأیید خودکار همانطور که Voyager پیادهسازی کرده است (یک فراخوانی دوم GPT-4 که میپرسد "آیا کار کرد؟") برای صحت مالی به اندازه کافی قوی نیست. شما به خودِ دفتر کل نیاز دارید تا پاسخ دهد.
چه چیزی را بعداً بخوانیم
- JARVIS-1: Open-World Multi-Task Agents with Memory-Augmented Multimodal Language Models — رویکرد کتابخانه مهارت Voyager را با حافظه چندوجهی (طرحهای بصری + متنی) گسترش میدهد و بیش از ۲۰۰ وظیفه Minecraft را انجام میدهد؛ برای درک چگونگی مقیاسپذیری کتابخانههای مهارت به فضاهای مشاهده غنیتر مفید است. (جستجوی arXiv: "JARVIS-1 open world Minecraft 2023")
- Lifelong Learning of Large Language Model based Agents: A Roadmap — یک بررسی جامع در سال ۲۰۲۵ که ساخت، کاربرد و ارزیابی عاملهای LLM مادامالعمر را پوشش میدهد؛ برای قرار دادن Voyager در ادبیات گستردهتر و شناسایی مسائل باز مفید است. [arXiv:2501.07278]
- Reinforcement Learning for Self-Improving Agent with Skill Library (SAGE) — یادگیری تقویتشده برای کسب مهارت را به پارادایم کتابخانه به سبک Voyager وارد میکند و این محدودیت را که مهارتهای Voyager فقط در صورت موفقیت اضافه میشوند و با سیگنال پاداش اص لاح نمیشوند، برطرف میکند. [arXiv:2512.17102]
