اطلس: پیشآموزش مشترک بازیاب-خوانشگر مدلهای زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست میدهد
اطلس (Atlas) دنباله مقاله ایزاکارد و گریو برای مقاله Fusion-in-Decoder خودشان است که FiD را به یک سیستم کاملاً مشترک آموزشدیده گسترش میدهد که در آن بازیاب و خوانشگر از ابتدا با هم آموزش میبینند. من اکنون آن را مطالعه میکنم زیرا تبار معماری را از مقاله اصلی RAG تا FiD و بازیابی آموزشدیده مشترک تکمیل میکند؛ دقیقاً همان فضای تصمیمی که هر سیستم پرسش و پاسخ دفتر کلی باید در آن پیمایش کند.
مقاله
مقاله "اطلس: یادگیری با نمونههای اندک با مدلهای زبانی بازیابی-افزوده" (.Izacard et al., JMLR 2023) این سوال را مطرح میکند که آیا مدلهای بازیابی-افزوده میتوانند با مدلهای زبانی بزرگ (LLM) با پارامترهای عظیم در وظایف دانشمحور با نمونههای اندک برابری کنند یا خیر. دستاورد اصلی این تحقیق، یک سیستم بازیابی-افزوده با پیشآموزش دقیق است که یک بازیاب متراکم مبتنی بر Contriever را در کنار یک خوانشگر Fusion-in-Decoder مبتنی بر T5 به طور مشترک آموزش میدهد. نکته کلیدی این است که پیشآموزش مشترک — و نه صرفاً معماری — عاملی است که عملکرد دانش در یادگیری با نمونههای اندک را هدایت میکند. این سیستم ۲۰ سند برتر را بازیابی کرده، هر کدام را به طور مستقل در رمزگذار کدگذاری میکند و سپس آنها را در توجه متقاطع (cross-attention) رمزگشا ادغام میکند؛ همان طراحی FiD که در مقاله سال ۲۰۲۱ نویسندگان ارائه شده بود.
ایدههای کلیدی
- اطلس-11B با تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست مییابد و با استفاده از ۵۰ برابر پارامتر کمتر، PaLM (با ۵۴۰ میلیارد پارامتر) را حدود ۳ واحد پشت سر میگذارد.
- در TriviaQA (با ۶۴ نمونه)، اطلس-11B به ۷۴.۵٪ در مجموعه فیلتر شده و ۸۴.۷٪ در تست مخفی فیلتر نشده میرسد که نشان میدهد مؤلفه بازیابی به خوبی کمبود نظارت مستقیم بر وظایف را جبران میکند.
- چهار هدف آموزشی برای بازیاب ارزیابی شدهاند: تقطیر توجه (ADist)، EMDR2 (در نظر گرفتن اسناد بازیابی شده به عنوان متغیرهای پنهان)، تقطیر درهمریختگی (PDist) و LOOP. تفاوت عملکرد بین آنها اندک است و PDist به دلیل بهرهوری محاسباتی انتخاب شده است.
- پیشآموزش مشترک بر روی متن بدون برچسب مهمترین عامل است: تمام پیکربندیهای پیشآموزش بازیابی-افزوده به طور قابل توجهی از خط پایه بازیابی-افزودهای که فقط تنظیم دقیق (fine-tuning) شده است، بهتر عمل میکنند.
- شاخص اسناد را میتوان پس از آموزش بدون نیاز به بازآموزی مدل بهروز کرد، که از نظر معماری برای پایگاههای دانش پویا حیاتی است. شاخصهایی که از نظر زمانی با دادهها مطابقت ندارند، عملکرد را به وضوح کاهش میدهند.
- در MMLU (با ۵ نمونه)، اطلس-11B به ۴۷.۹٪ میرسد که علیرغم داشتن ۱۶ برابر پارامتر کمتر، از ۴۳.۹٪ گزارش شده برای GPT-3 فراتر میرود.
چه چیزی پابرجا است — و چه چیزی نیست
ادعای اصلی — اینکه بازیابی امکان عملکرد دانش در یادگیری با نمونههای اندک را با کسری از تعداد پارامترها فراهم میکند — به طور قانعکنندهای پابرجا است. رقم ۴۲.۴٪ در NQ با ۶۴ نمونه نتیجهای خیرهکننده است و مقایسه با PaLM منصفانه است، زیرا PaLM در آن زمان بنچمارک پیشرو در مقیاس بود.
اما من سه ملاحظه دارم. اول اینکه دقت بازیابی حتی پس از آموزش مشترک چندان عالی نیست: تحلیلهای مستقل نشان میدهد که Contriever در حدود ۸۵٪ موارد حداقل یکی از گزارههای طلایی را از دست میدهد و به دقت بازیابی حدود ۴۷٪ در پرسش و پاسخ دست مییابد. آموزش مشترک، بازیابی را نسبت به خط پایههای غیرمشترک بهبود میبخشد، اما خوانشگر کار عظیمی برای جبران بازیابی ناقص انجام میدهد — ارقام خیرهکننده یادگیری با نمونههای اندک نشاندهنده سقف توانایی کل سیستم است، نه لزوماً کیفیت مؤلفه بازیابی. دوم، هزینه زیرساخت واقعی است: تازهسازی شاخصهای اسناد در طول پیشآموزش تقریباً ۳۰٪ سربار محاسباتی اضافه میکند و شاخص کامل ویکیپدیا + CommonCrawl به ۵۸۷ گیگابایت حافظه در حالت fp16 نیاز دارد. این برای یک محیط تحقیقاتی قابل مدیریت است، اما یک محدودیت عملیاتی واقعی برای استقرار در تولید محسوب میشود. سوم، نشت دادهها تایید شده اما حل نشده است: ۲.۸٪ از سوالات MMLU عیناً در مجموعه داده CCNet که برای پیشآموزش استفاده شده ظاهر میشوند که نتایج MMLU را به میزان نامعلومی متورم میکند.
همچنین یک محدودیت معماری ظریفتر وجود دارد که مقاله کاملاً به آن نمیپردازد: FiD هر قطعه بازیابی شده را قبل از ادغام به طور مستقل رمزگذاری میکند، که به موازیسازی کمک میکند اما به این معنی است که رمزگذار توجهی بین قطعات ندارد. زنجیرههای استدلال طولانی چندمرحلهای (multi-hop) که نیاز به اتصال اطلاعات در قطعات مختلف دارند، باید تمام آن کار را در رمزگشا انجام دهند — و با ۲۰ قطعه بازیابی شده، توجه متقاطع رمزگشا بار سنگینی را تحمل میکند.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
برای پرسش و پاسخ دفتر کل Beancount، مرتبطترین دستاورد اطلس اثبات تجربی این است که آموزش مشترک بازیاب-خوانشگر در تنظیمات با نمونههای اندک نتیجهبخش است — و همچنین گزارش صادقانه آن از زمانهایی که نتیجه نمیدهد. یک عامل Beancount که تاریخچه تراکنشهای چندساله را جستجو میکند دقیقاً با مشکل شاخص پویا مواجه است: ورودیهای جدید روزانه اضافه میشوند و شاخصی که یک ماه قدیمی باشد، پاسخهای اشتباه تولید میکند. اطلس نشان میدهد که شاخص را میتوان بدون بازآموزی جایگزین (hot-swap) کرد، که از نظر معماری امیدوارکننده است.
با این حال، ارقام دقت بازیابی جای تأمل دارد. اگر Contriever حتی پس از آموزش مشترک روی متن عمومی، در ۵۳٪ تلاشهای بازیابی، ورودی مربوطه دفتر کل را از دست بدهد، یک عامل حوزه مالی که روی دفاتر کل Beancount کار میکند — با نامهای دارایی خاص دامنه، سلسلهمراتب حسابها و دستورالعملهای bean — یا به آموزش بازیاب سازگار با دامنه نیاز دارد یا به بازیابی تقویتشده با روشهای پرسوجوی ساختاریافته (تطبیق دقیق حساب، فیلتر کردن تاریخ). بازیابی به سبک RAG به تنهایی، حتی اگر به صورت مشترک آموزش دیده باشد، برای عملیات دفتر کل با دقت بالا کافی نخواهد بود.
مقایسه با PaLM همچنین موازنه معماری را روشن میکند: بازیابی به شما اجازه میدهد دانش را در پارامترهای کمتری فشرده کنید و هزینه استنتاج را کاهش دهید. برای محصولی مانند Beancount.io که هزینه استنتاج در مقیاس بالا اهمیت دارد، فلسفه طراحی اطلس جذاب است. اما هزینه شاخص ۵۸۷ گیگابایتی، بار عملیاتی را به زیرساخت ذخیرهسازی و بازیابی منتقل میکند — نوع متفاوتی از محدودیت عملیاتی که در اعداد بنچمارک ظاهر نمیشود.
منابع پیشنهادی برای مطالعه بیشتر
- REALM: Retrieval-Augmented Language Model Pre-Training (Guu et al., arXiv:2002.08909, ICML 2020) — چارچوب پیشآموزش مشترک بازیاب-خوانشگر اولیه که اطلس آن را گسترش میدهد؛ ضروری برای درک آنچه اطلس واقعاً بهبود میبخشد و آنچه را بدون تغییر باقی میگذارد.
- RA-DIT: Retrieval-Augmented Dual Instruction Tuning (Lin et al., arXiv:2310.01352, ICLR 2024) — با استفاده از تنظیم دستورالعمل به جای پیشآموزش مشترک از ابتدا، به عملکرد رقابتی با اطلس دست مییابد؛ نشان میدهد که شکاف بین آموزش مشترک و مستقل ممکن است بدون هزینههای سنگین زیرساختی قابل بستن باشد.
- RETRO: Improving Language Models by Retrieving from Trillions of Tokens (Borgeaud et al., arXiv:2112.04426, ICML 2022) — رویکرد DeepMind به بازیابی در حین پیشآموزش در مقیاسی متفاوت؛ تصویر رویکردهای پیشآموزش بازیابی-افزوده را قبل از انتخاب معماری نهایی برای پرسش و پاسخ دفتر کل تکمیل میکند.
