پرش به محتوای اصلی

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

سوالی که هنگام طراحی عامل‌های Beancount مدام به آن برمی‌گردم این است: وقتی داده‌های دفتر کل شما تغییر می‌کند، آیا باید مدل را روی حقایق جدید تنظیم دقیق (Fine-tune) کنید یا یک سیستم بازیابی (Retrieval) بسازید؟ مقاله اووادیا و همکاران با عنوان "تنظیم دقیق یا بازیابی؟ مقایسه تزریق دانش در مدل‌های زبانی بزرگ" (EMNLP 2024, arXiv:2312.05934) شفاف‌ترین پاسخ تجربی را که تا به حال یافته‌ام ارائه می‌دهد و به شدت بر خلاف جو تبلیغاتی پیرامون تنظیم دقیق عمل می‌کند.

مقاله

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

اودد اووادیا، مناخم بریف، موشیک میشائیلی و اورن الیشا دو رویکرد را برای به‌روزرسانی دانسته‌های یک LLM مقایسه می‌کنند: پیش‌آموزش مداوم بدون نظارت (مدل متن جدید را می‌خواند و پیش‌بینی توکن بعدی را ادامه می‌دهد) و RAG (مدل قطعات بازیابی شده را در زمان پرس‌وجو دریافت می‌کند). آن‌ها سه مدل ۷ میلیارد پارامتری — Llama2-7B، Mistral-7B و Orca2-7B — را در دو حوزه دانش آزمایش کردند: زیرمجموعه‌ای از MMLU شامل کالبدشناسی، نجوم، زیست‌شناسی دانشگاهی و شیمی (دانشی که احتمالاً مدل‌ها در پیش‌آموزش دیده‌اند)، و یک مجموعه داده سفارشی از رویدادهای جاری شامل ۹۱۰ سوال چندگزینه‌ای درباره رویدادهای ایالات متحده از اوت تا نوامبر ۲۰۲۳، که به وضوح فراتر از زمان قطع آموزش مدل‌ها است. خط لوله RAG از امبدینگ‌های BGE-large-en روی یک شاخص FAISS استفاده می‌کند. تنظیم دقیق نیز آموزش علی LM بدون نظارت را روی تکه‌های ۲۵۶ توکنی ویکی‌پدیا با استفاده از ۴ پردازنده گرافیکی A100 اجرا می‌کند.

ایده‌های کلیدی

  • RAG در دانش واقعاً جدید برتری مطلق دارد: در وظیفه رویدادهای جاری، RAG به تنهایی نمرات ۰.۸۷۵ (Mistral) و ۰.۸۷۶ (Orca) را در مقابل خط پایه مدل اصلی (۰.۳۵۳–۰.۴۸۱) کسب کرد. تنظیم دقیق بدون نظارت با بازنویسی متن تنها به دقت ۰.۵۰۴–۰.۵۱۱ می‌رسد — RAG بیش از دو برابرِ افزایشی که تنظیم دقیق در حقایق فراتر از قطع آموزش ایجاد کرده بود، دقت را بهبود بخشید.
  • سقف تنظیم دقیق، دانش موجود است، نه دانش جدید: حتی در موضوعات MMLU که مدل‌ها قبلاً در طول پیش‌آموزش با آن‌ها مواجه شده بودند، تنظیم دقیق تنها دستاوردهای اندکی داشت؛ RAG همچنان در تمام پنج موضوع عملکرد بهتری نشان داد.
  • بازنویسی متن کمک می‌کند، اما به آرامی: بازنویسی‌های تولید شده توسط GPT-4 از هر بخش آموزشی، نتایج تنظیم دقیق را به صورت یکنواخت بهبود می‌بخشد — ۱۰ نسخه همیشه بهتر از ۱ نسخه است — و نویسندگان پیشنهاد می‌کنند که این کار ممکن است تا حدی به "نفرین معکوس" (Reversal Curse) رسیدگی کند؛ جایی که مدل‌های آموزش دیده روی "الف، ب است" در تعمیم به "ب، الف است" شکست می‌خورند. آن‌ها خاطرنشان کردند که این ارتباط نیازمند تحقیق بیشتر است.
  • فراموشی فاجعه‌بار یک هزینه واقعی است: Llama2 بدون تقویت داده، پس از تنظیم دقیق روی رویدادهای جاری، کاهش قابل توجهی در دقت وظایف قبلاً یاد گرفته شده نشان داد. RAG کاملاً از این مشکل اجتناب می‌کند.
  • ترکیب هر دو همیشه کمک نمی‌کند: ترکیب تنظیم دقیق + RAG در شرایط رویدادهای جاری به ۰.۵۲۰–۰.۸۳۰ رسید که گاهی کمتر از RAG به تنهایی بود. به نظر می‌رسد تنظیم دقیق در توانایی مدل برای استفاده از بافتار بازیابی شده تداخل ایجاد می‌کند.

چه چیزی درست است — و چه چیزی نه

یافته اصلی معتبر است. یک مجموعه داده ۹۱۰ سوالی با یک قطع زمانی مشخص برای اعتماد به جهت نتیجه کافی است: تنظیم دقیق بدون نظارت ابزار ضعیفی برای تزریق حقایق واقعاً جدید است. طراحی ارزیابی تمیز و اندازه اثرها بزرگ است.

نقاط کور نیز واقعی هستند. هر سه مدل آزمایش شده ۷ میلیارد پارامتری هستند — ما نمی‌دانیم که آیا شکاف تنظیم دقیق با مدل‌های مقیاس بزرگتر (Frontier models) کمتر می‌شود یا بیشتر. مهم‌تر از آن، روش تنظیم دقیق صرفاً پیش‌بینی بدون نظارت توکن بعدی است. هیچ LoRA، هیچ تنظیم دستورالعمل (Instruction tuning) یا جفت‌های پرسش و پاسخ نظارت‌شده‌ای وجود ندارد. RAFT و رویکردهای مشابه انطباق دامنه نظارت‌شده، خط‌های پایه رقابتی‌تری هستند که این مقاله به آن‌ها نپرداخته است. نتیجه‌گیری "تنظیم دقیق بازنده است" در واقع به معنای "تنظیم دقیق بدون نظارت بازنده است" می‌باشد که ادعای محدودتری است.

پیاده‌سازی RAG نیز در سطح پایه است: بازیابی متراکم ساده با FAISS و BGE-large-en، بدون رتبه‌بندی مجدد یا گسترش پرس‌وجو. یک یادداشت در پیوست تایید می‌کند که K بهینه (تعداد قطعات بازیابی شده) در مدل‌ها و وظایف مختلف به طور قابل توجهی متفاوت است — انتخاب تعداد اشتباه قطعات بازیابی شده به عملکرد آسیب جدی می‌زند. در محیط عملیاتی، تنظیم K به ازای هر دامنه، یک هزینه عملیاتی غیرقابل چشم‌پوشی است.

یک ادعا که من با آن مخالفم: نویسندگان یافته‌ی "بازنویسی به تنظیم دقیق کمک می‌کند" را به عنوان عاملی احتمالی برای کاهش نفرین معکوس مطرح می‌کنند، اما شواهد آن‌ها غیرمستقیم است. بهبود یکنواخت با افزایش تعداد بازنویسی‌ها می‌تواند صرفاً نشان‌دهنده مزایای استاندارد تقویت داده‌ها (Data augmentation) باشد تا هرگونه اصلاح ساختاری در تعمیم دوطرفه. این ارتباط جالب است اما اثبات نشده است.

چرا این موضوع برای هوش مصنوعی در امور مالی اهمیت دارد

این یکی از کاربردی‌ترین مقاله‌ها برای دستور کار Bean Labs است. یک عامل Beancount را نمی‌توان هر بار که تراکنشی اضافه می‌شود، قانونی تغییر می‌کند یا سال مالی جدیدی آغاز می‌شود، دوباره آموزش داد. این مقاله به شدت از برخورد با دفتر کل به عنوان یک پیکره بازیابی (Retrieval Corpus) به جای مواد تنظیم دقیق حمایت می‌کند: دستاوردهای فکت‌محور از تنظیم دقیق ناچیز است، خطر فراموشی فاجعه‌بار واقعی است و هزینه عملیاتی بازآموزی بسیار فراتر از هزینه بازسازی شاخص (Indexing) است.

یافته‌ی مربوط به بازنویسی، حتی اگر تنظیم دقیق را کنار بگذاریم، به نکته مفیدی اشاره دارد. اگر یک قانون حسابداری خاصِ دامنه نیاز دارد که عمیقاً در رفتار مدل نهادینه شود — نه فقط بازیابی شود بلکه به طور قابل اعتمادی رعایت شود — بیان آن به اشکال مختلف (محدودیت، بررسی اعتبار، مثال عینی از نقض قانون) احتمالاً قوی‌تر از یک بیانیه واحد و رسمی است. این همان روشی است که آموزش حسابداری عمل می‌کند و با نحوه چارچوب‌بندی پوشش قوانین در مطالعات هوش مصنوعی مبتنی بر قانون (Constitutional AI) سازگار است.

نتیجه فراموشی فاجعه‌بار واضح‌ترین هشدار عملی است: انطباق دامنه بدون نظارت روی داده‌های دفتر کل می‌تواند قابلیت‌های استدلال عمومی مورد نیاز برای تشخیص ناهنجاری و پاسخ به پرس‌وجوها را تخریب کند. بازیابی با هزینه یک شاخص و یک بازیاب از این مشکل عبور می‌کند — معامله‌ای که ارزشش را دارد.

مطالب پیشنهادی برای مطالعه بیشتر

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — مقاله‌ای که اووادیا و همکاران به آن استناد می‌کنند؛ توضیح می‌دهد که چرا LLMها در استنتاج دوطرفه از داده‌های آموزشی شکست می‌خورند و محدودیت‌های اساسی تنظیم دقیق برای تزریق حقایق را ترسیم می‌کند.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — یک دستورالعمل تنظیم دقیق نظارت‌شده که برای کار با RAG طراحی شده است، نه جایگزینی آن؛ یک خط پایه تنظیم دقیق رقابتی‌تر از رویکرد بدون نظارت آزمایش شده در اینجا.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — مقایسه را به دانش موجودیت‌های کم‌تکرار (Long-tail) گسترش می‌دهد، جایی که RAG دوباره برتری دارد، و Stimulus RAG را به عنوان یک جایگزین سبک پیشنهاد می‌کند.