پرش به محتوای اصلی

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

اطلس (Atlas) دنباله مقاله ایزاکارد و گریو برای مقاله Fusion-in-Decoder خودشان است که FiD را به یک سیستم کاملاً مشترک آموزش‌دیده گسترش می‌دهد که در آن بازیاب و خوانشگر از ابتدا با هم آموزش می‌بینند. من اکنون آن را مطالعه می‌کنم زیرا تبار معماری را از مقاله اصلی RAG تا FiD و بازیابی آموزش‌دیده مشترک تکمیل می‌کند؛ دقیقاً همان فضای تصمیمی که هر سیستم پرسش و پاسخ دفتر کلی باید در آن پیمایش کند.

مقاله

2026-05-27-atlas-few-shot-learning-retrieval-augmented-language-models

مقاله "اطلس: یادگیری با نمونه‌های اندک با مدل‌های زبانی بازیابی-افزوده" (.Izacard et al., JMLR 2023) این سوال را مطرح می‌کند که آیا مدل‌های بازیابی-افزوده می‌توانند با مدل‌های زبانی بزرگ (LLM) با پارامترهای عظیم در وظایف دانش‌محور با نمونه‌های اندک برابری کنند یا خیر. دستاورد اصلی این تحقیق، یک سیستم بازیابی-افزوده با پیش‌آموزش دقیق است که یک بازیاب متراکم مبتنی بر Contriever را در کنار یک خوانشگر Fusion-in-Decoder مبتنی بر T5 به طور مشترک آموزش می‌دهد. نکته کلیدی این است که پیش‌آموزش مشترک — و نه صرفاً معماری — عاملی است که عملکرد دانش در یادگیری با نمونه‌های اندک را هدایت می‌کند. این سیستم ۲۰ سند برتر را بازیابی کرده، هر کدام را به طور مستقل در رمزگذار کدگذاری می‌کند و سپس آن‌ها را در توجه متقاطع (cross-attention) رمزگشا ادغام می‌کند؛ همان طراحی FiD که در مقاله سال ۲۰۲۱ نویسندگان ارائه شده بود.

ایده‌های کلیدی

  • اطلس-11B با تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و با استفاده از ۵۰ برابر پارامتر کمتر، PaLM (با ۵۴۰ میلیارد پارامتر) را حدود ۳ واحد پشت سر می‌گذارد.
  • در TriviaQA (با ۶۴ نمونه)، اطلس-11B به ۷۴.۵٪ در مجموعه فیلتر شده و ۸۴.۷٪ در تست مخفی فیلتر نشده می‌رسد که نشان می‌دهد مؤلفه بازیابی به خوبی کمبود نظارت مستقیم بر وظایف را جبران می‌کند.
  • چهار هدف آموزشی برای بازیاب ارزیابی شده‌اند: تقطیر توجه (ADist)، EMDR2 (در نظر گرفتن اسناد بازیابی شده به عنوان متغیرهای پنهان)، تقطیر درهم‌ریختگی (PDist) و LOOP. تفاوت عملکرد بین آن‌ها اندک است و PDist به دلیل بهره‌وری محاسباتی انتخاب شده است.
  • پیش‌آموزش مشترک بر روی متن بدون برچسب مهم‌ترین عامل است: تمام پیکربندی‌های پیش‌آموزش بازیابی-افزوده به طور قابل توجهی از خط پایه بازیابی-افزوده‌ای که فقط تنظیم دقیق (fine-tuning) شده است، بهتر عمل می‌کنند.
  • شاخص اسناد را می‌توان پس از آموزش بدون نیاز به بازآموزی مدل به‌روز کرد، که از نظر معماری برای پایگاه‌های دانش پویا حیاتی است. شاخص‌هایی که از نظر زمانی با داده‌ها مطابقت ندارند، عملکرد را به وضوح کاهش می‌دهند.
  • در MMLU (با ۵ نمونه)، اطلس-11B به ۴۷.۹٪ می‌رسد که علیرغم داشتن ۱۶ برابر پارامتر کمتر، از ۴۳.۹٪ گزارش شده برای GPT-3 فراتر می‌رود.

چه چیزی پابرجا است — و چه چیزی نیست

ادعای اصلی — اینکه بازیابی امکان عملکرد دانش در یادگیری با نمونه‌های اندک را با کسری از تعداد پارامترها فراهم می‌کند — به طور قانع‌کننده‌ای پابرجا است. رقم ۴۲.۴٪ در NQ با ۶۴ نمونه نتیجه‌ای خیره‌کننده است و مقایسه با PaLM منصفانه است، زیرا PaLM در آن زمان بنچمارک پیشرو در مقیاس بود.

اما من سه ملاحظه دارم. اول اینکه دقت بازیابی حتی پس از آموزش مشترک چندان عالی نیست: تحلیل‌های مستقل نشان می‌دهد که Contriever در حدود ۸۵٪ موارد حداقل یکی از گزاره‌های طلایی را از دست می‌دهد و به دقت بازیابی حدود ۴۷٪ در پرسش و پاسخ دست می‌یابد. آموزش مشترک، بازیابی را نسبت به خط پایه‌های غیرمشترک بهبود می‌بخشد، اما خوانشگر کار عظیمی برای جبران بازیابی ناقص انجام می‌دهد — ارقام خیره‌کننده یادگیری با نمونه‌های اندک نشان‌دهنده سقف توانایی کل سیستم است، نه لزوماً کیفیت مؤلفه بازیابی. دوم، هزینه زیرساخت واقعی است: تازه‌سازی شاخص‌های اسناد در طول پیش‌آموزش تقریباً ۳۰٪ سربار محاسباتی اضافه می‌کند و شاخص کامل ویکی‌پدیا + CommonCrawl به ۵۸۷ گیگابایت حافظه در حالت fp16 نیاز دارد. این برای یک محیط تحقیقاتی قابل مدیریت است، اما یک محدودیت عملیاتی واقعی برای استقرار در تولید محسوب می‌شود. سوم، نشت داده‌ها تایید شده اما حل نشده است: ۲.۸٪ از سوالات MMLU عیناً در مجموعه داده CCNet که برای پیش‌آموزش استفاده شده ظاهر می‌شوند که نتایج MMLU را به میزان نامعلومی متورم می‌کند.

همچنین یک محدودیت معماری ظریف‌تر وجود دارد که مقاله کاملاً به آن نمی‌پردازد: FiD هر قطعه بازیابی شده را قبل از ادغام به طور مستقل رمزگذاری می‌کند، که به موازی‌سازی کمک می‌کند اما به این معنی است که رمزگذار توجهی بین قطعات ندارد. زنجیره‌های استدلال طولانی چندمرحله‌ای (multi-hop) که نیاز به اتصال اطلاعات در قطعات مختلف دارند، باید تمام آن کار را در رمزگشا انجام دهند — و با ۲۰ قطعه بازیابی شده، توجه متقاطع رمزگشا بار سنگینی را تحمل می‌کند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

برای پرسش و پاسخ دفتر کل Beancount، مرتبط‌ترین دستاورد اطلس اثبات تجربی این است که آموزش مشترک بازیاب-خوانشگر در تنظیمات با نمونه‌های اندک نتیجه‌بخش است — و همچنین گزارش صادقانه آن از زمان‌هایی که نتیجه نمی‌دهد. یک عامل Beancount که تاریخچه تراکنش‌های چندساله را جستجو می‌کند دقیقاً با مشکل شاخص پویا مواجه است: ورودی‌های جدید روزانه اضافه می‌شوند و شاخصی که یک ماه قدیمی باشد، پاسخ‌های اشتباه تولید می‌کند. اطلس نشان می‌دهد که شاخص را می‌توان بدون بازآموزی جایگزین (hot-swap) کرد، که از نظر معماری امیدوارکننده است.

با این حال، ارقام دقت بازیابی جای تأمل دارد. اگر Contriever حتی پس از آموزش مشترک روی متن عمومی، در ۵۳٪ تلاش‌های بازیابی، ورودی مربوطه دفتر کل را از دست بدهد، یک عامل حوزه مالی که روی دفاتر کل Beancount کار می‌کند — با نام‌های دارایی خاص دامنه، سلسله‌مراتب حساب‌ها و دستورالعمل‌های bean — یا به آموزش بازیاب سازگار با دامنه نیاز دارد یا به بازیابی تقویت‌شده با روش‌های پرس‌وجوی ساختاریافته (تطبیق دقیق حساب، فیلتر کردن تاریخ). بازیابی به سبک RAG به تنهایی، حتی اگر به صورت مشترک آموزش دیده باشد، برای عملیات دفتر کل با دقت بالا کافی نخواهد بود.

مقایسه با PaLM همچنین موازنه معماری را روشن می‌کند: بازیابی به شما اجازه می‌دهد دانش را در پارامترهای کمتری فشرده کنید و هزینه استنتاج را کاهش دهید. برای محصولی مانند Beancount.io که هزینه استنتاج در مقیاس بالا اهمیت دارد، فلسفه طراحی اطلس جذاب است. اما هزینه شاخص ۵۸۷ گیگابایتی، بار عملیاتی را به زیرساخت ذخیره‌سازی و بازیابی منتقل می‌کند — نوع متفاوتی از محدودیت عملیاتی که در اعداد بنچمارک ظاهر نمی‌شود.

منابع پیشنهادی برای مطالعه بیشتر

  • REALM: Retrieval-Augmented Language Model Pre-Training (Guu et al., arXiv:2002.08909, ICML 2020) — چارچوب پیش‌آموزش مشترک بازیاب-خوانشگر اولیه که اطلس آن را گسترش می‌دهد؛ ضروری برای درک آنچه اطلس واقعاً بهبود می‌بخشد و آنچه را بدون تغییر باقی می‌گذارد.
  • RA-DIT: Retrieval-Augmented Dual Instruction Tuning (Lin et al., arXiv:2310.01352, ICLR 2024) — با استفاده از تنظیم دستورالعمل به جای پیش‌آموزش مشترک از ابتدا، به عملکرد رقابتی با اطلس دست می‌یابد؛ نشان می‌دهد که شکاف بین آموزش مشترک و مستقل ممکن است بدون هزینه‌های سنگین زیرساختی قابل بستن باشد.
  • RETRO: Improving Language Models by Retrieving from Trillions of Tokens (Borgeaud et al., arXiv:2112.04426, ICML 2022) — رویکرد DeepMind به بازیابی در حین پیش‌آموزش در مقیاسی متفاوت؛ تصویر رویکردهای پیش‌آموزش بازیابی-افزوده را قبل از انتخاب معماری نهایی برای پرسش و پاسخ دفتر کل تکمیل می‌کند.