تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدلهای زبانی بزرگ پیروز میشود
سوالی که هنگام طراحی عاملهای Beancount مدام به آن برمیگردم این است: وقتی دادههای دفتر کل شما تغییر میکند، آیا باید مدل را روی حقایق جدید تنظیم دقیق (Fine-tune) کنید یا یک سیستم بازیابی (Retrieval) بسازید؟ مقاله اووادیا و همکاران با عنوان "تنظیم دقیق یا بازیابی؟ مقایسه تزریق دانش در مدلهای زبانی بزرگ" (EMNLP 2024, arXiv:2312.05934) شفافترین پاسخ تجربی را که تا به حال یافتهام ارائه میدهد و به شدت بر خلاف جو تبلیغاتی پیرامون تنظیم دقیق عمل میکند.
مقاله
اودد اووادیا، مناخم بریف، موشیک میشائیلی و اورن الیشا دو رویکرد را برای بهروزرسانی دانستههای یک LLM مقایسه میکنند: پیشآموزش مداوم بدون نظارت (مدل متن جدید را میخواند و پیشبینی توکن بعدی را ادامه میدهد) و RAG (مدل قطعات بازیابی شده را در زمان پرسوجو دریافت میکند). آنها سه مدل ۷ میلیارد پارامتری — Llama2-7B، Mistral-7B و Orca2-7B — را در دو حوزه دانش آزمایش کردند: زیرمجموعهای از MMLU شامل کالبدشناسی، نجوم، زیستشناسی دانشگاهی و شیمی (دانشی که احتمالاً مدلها در پیشآموزش دیدهاند)، و یک مجموعه داده سفارشی از رویدادهای جاری شامل ۹۱۰ سوال چندگزینهای درباره رویدادهای ایالات متحده از اوت تا نوامبر ۲۰۲۳، که به وضوح فراتر از زمان قطع آموزش مدلها است. خط لوله RAG از امبدینگهای BGE-large-en روی یک شاخص FAISS استفاده میکند. تنظیم دقیق نیز آموزش علی LM بدون نظارت را روی تکههای ۲۵۶ توکنی ویکیپدیا با استفاده از ۴ پردازنده گرافیکی A100 اجرا میکند.
ایدههای کلیدی
- RAG در دانش واقعاً جدید برتری مطلق دارد: در وظیفه رویدادهای جاری، RAG به تنهایی نمرات ۰.۸۷۵ (Mistral) و ۰.۸۷۶ (Orca) را در مقابل خط پایه مدل اصلی (۰.۳۵۳–۰.۴۸۱) کسب کرد. تنظیم دقیق بدون نظارت با بازنویسی متن تنها به دقت ۰.۵۰۴–۰.۵۱۱ میرسد — RAG بیش از دو برابرِ افزایشی که تنظیم دقیق در حقایق فراتر از قطع آموزش ایجاد کرده بود، دقت را بهبود بخشید.
- سقف تنظیم دقیق، دانش موجود است، نه دانش جدید: حتی در موضوعات MMLU که مدلها قبلاً در طول پیشآموزش با آنها مواجه شده بودند، تنظیم دقیق تنها دستاوردهای اندکی داشت؛ RAG همچنان در تمام پنج موضوع عملکرد بهتری نشان داد.
- بازنویسی متن کمک میکند، اما به آرامی: بازنویسیهای تولید شده توسط GPT-4 از هر بخش آموزشی، نتایج تنظیم دقیق را به صورت یکنواخت بهبود میبخشد — ۱۰ نسخه همیشه بهتر از ۱ نسخه است — و نویسندگان پیشنهاد میکنند که این کار ممکن است تا حدی به "نفرین معکوس" (Reversal Curse) رسیدگی کند؛ جایی که مدلهای آموزش دیده روی "الف، ب است" در تعمیم به "ب، الف است" شکست میخورند. آنها خاطرنشان کردند که این ارتباط نیازمند تحقیق بیشتر است.
- فراموشی فاجعهبار یک هزینه واقعی است: Llama2 بدون تقویت داده، پس از تنظیم دقیق روی رویدادهای جاری، کاهش قابل توجهی در دقت وظایف قبلاً یاد گرفته شده نشان داد. RAG کاملاً از این مشکل اجتناب میکند.
- ترکیب هر دو همیشه کمک نمیکند: ترکیب تنظیم دقیق + RAG در شرایط رویدادهای جاری به ۰.۵۲۰–۰.۸۳۰ رسید که گاهی کمتر از RAG به تنهایی بود. به نظر میرسد تنظیم دقیق در توانایی مدل برای استفاده از بافتار بازیابی شده تداخل ایجاد میکند.
چه چیزی درست است — و چه چیزی نه
یافته اصلی معتبر است. یک مجموعه داده ۹۱۰ سوالی با یک قطع زمانی مشخص برای اعتماد به جهت نتیجه کافی است: تنظیم دقیق بدون نظارت ابزار ضعیفی برای تزریق حقایق واقعاً جدید است. طراحی ارزیابی تمیز و اندازه اثرها بزرگ است.
نقاط کور نیز واقعی هستند. هر سه مدل آزمایش شده ۷ میلیارد پارامتری هستند — ما نمیدانیم که آیا شکاف تنظیم دقیق با مدلهای مقیاس بزرگتر (Frontier models) کمتر میشود یا بیشتر. مهمتر از آن، روش تنظیم دقیق صرفاً پیشبینی بدون نظارت توکن بعدی است. هیچ LoRA، هیچ تنظیم دستورالعمل (Instruction tuning) یا جفتهای پرسش و پاسخ نظارتشدهای وجود ندارد. RAFT و رویکردهای مشابه انطباق دامنه نظارتشده، خطهای پایه رقابتیتری هستند که این مقاله به آنها نپرداخته است. نتیجهگیری "تنظیم دقیق بازنده است" در واقع به معنای "تنظیم دقیق بدون نظارت بازنده است" میباشد که ادعای محدودتری است.
پیادهسازی RAG نیز در سطح پایه است: بازیابی متراکم ساده با FAISS و BGE-large-en، بدون رتبهبندی مجدد یا گسترش پرسوجو. یک یادداشت در پیوست تایید میکند که K بهینه (تعداد قطعات بازیابی شده) در مدلها و وظایف مختلف به طور قابل توجهی متفاوت است — انتخاب تعداد اشتباه قطعات بازیابی شده به عملکرد آسیب جدی میزند. در محیط عملیاتی، تنظیم K به ازای هر دامنه، یک هزینه عملیاتی غیرقابل چشمپوشی است.
یک ادعا که من با آن مخالفم: نویسندگان یافتهی "بازنویسی به تنظیم دقیق کمک میکند" را به عنوان عاملی احتمالی برای کاهش نفرین معکوس مطرح میکنند، اما شواهد آنها غیرمستقیم است. بهبود یکنواخت با افزایش تعداد بازنویسیها میتواند صرفاً نشاندهنده مزایای استاندارد تقویت دادهها (Data augmentation) باشد تا هرگونه اصلاح ساختاری در تعمیم دوطرفه. این ارتباط جالب است اما اثبات نشده است.
چرا این موضوع برای هوش مصنوعی در امور مالی اهمیت دارد
این یکی از کاربردیترین مقالهها برای دستور کار Bean Labs است. یک عامل Beancount را نمیتوان هر بار که تراکنشی اضافه میشود، قانونی تغییر میکند یا سال مالی جدیدی آغاز میشود، دوباره آموزش داد. این مقاله به شدت از برخورد با دفتر کل به عنوان یک پیکره بازیابی (Retrieval Corpus) به جای مواد تنظیم دقیق حمایت میکند: دستاوردهای فکتمحور از تنظیم دقیق ناچیز است، خطر فراموشی فاجعهبار واقعی است و هزینه عملیاتی بازآموزی بسیار فراتر از هزینه بازسازی شاخص (Indexing) است.
یافتهی مربوط به بازنویسی، حتی اگر تنظیم دقیق را کنار بگذاریم، به نکته مفیدی اشاره دارد. اگر یک قانون حسابداری خاصِ دامنه نیاز دارد که عمیقاً در رفتار مدل نهادینه شود — نه فقط بازیابی شود بلکه به طور قابل اعتمادی رعایت شود — بیان آن به اشکال مختلف (محدودیت، بررسی اعتبار، مثال عینی از نقض قانون) احتمالاً قویتر از یک بیانیه واحد و رسمی است. این همان روشی است که آموزش حسابداری عمل میکند و با نحوه چارچوببندی پوشش قوانین در مطالعات هوش مصنوعی مبتنی بر قانون (Constitutional AI) سازگار است.
نتیجه فراموشی فاجعهبار واضحترین هشدار عملی است: انطباق دامنه بدون نظارت روی دادههای دفتر کل میتواند قابلیتهای استدلال عمومی مورد نیاز برای تشخیص ناهنجاری و پاسخ به پرسوجوها را تخریب کند. بازیابی با هزینه یک شاخص و یک بازیاب از این مشکل عبور میکند — معاملهای که ارزشش را دارد.
مطالب پیشنهادی برای مطالعه بیشتر
- The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — مقالهای که اووادیا و همکاران به آن استناد میکنند؛ توضیح میدهد که چرا LLMها در استنتاج دوطرفه از دادههای آموزشی شکست میخورند و محدودیتهای اساسی تنظیم دقیق برای تزریق حقایق را ترسیم میکند.
- RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — یک دستورالعمل تنظیم دقیق نظارتشده که برای کار با RAG طراحی شده است، نه جایگزینی آن؛ یک خط پایه تنظیم دقیق رقابتیتر از رویکرد بدون نظارت آزمایش شده در اینجا.
- Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — مقایسه را به دانش موجودیتهای کمتکرار (Long-tail) گسترش میدهد، جایی که RAG دوباره برتری دارد، و Stimulus RAG را به عنوان یک جایگزین سبک پیشنهاد میکند.
