Перейти до основного вмісту

Тонке налаштування проти RAG: Чому пошук перемагає при впровадженні нових знань у LLM

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Питання, до якого я постійно повертаюся під час розробки агентів Beancount, полягає в наступному: коли дані вашої головної книги змінюються, чи варто донавчати модель на нових фактах чи побудувати систему пошуку? Робота Овадії та ін. «Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs» (EMNLP 2024, arXiv:2312.05934) дає найбільш чітку емпіричну відповідь, яку я знайшов, і вона різко суперечить хайпу навколо тонкого налаштування.

Дослідження

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Одед Овадія, Менахем Бріф, Мошик Мішаелі та Орен Еліша порівнюють два підходи до оновлення знань LLM: неконтрольоване безперервне попереднє навчання (модель читає новий текст і продовжує прогнозування наступного токена) та RAG (модель отримує знайдені уривки під час запиту). Вони тестують три моделі з 7 млрд параметрів — Llama2-7B, Mistral-7B та Orca2-7B — у двох областях знань: підмножина MMLU, що охоплює анатомію, астрономію, біологію та хімію (знання, які моделі, ймовірно, бачили під час навчання), та спеціальний набір даних поточних подій із 910 питань з варіантами відповідей про події в США з серпня по листопад 2023 року, що явно виходять за межі дати відсікання навчання моделей. Конвеєр RAG використовує ембеддінги BGE-large-en над індексом FAISS. Тонке налаштування виконується як неконтрольоване каузальне навчання мовної моделі на фрагментах Вікіпедії по 256 токенів на 4 GPU A100.

Ключові ідеї

  • RAG домінує на справді нових знаннях: У завданні з поточними подіями тільки RAG набирає 0,875 (Mistral) та 0,876 (Orca) проти базових показників моделей 0,353–0,481. Неконтрольоване тонке налаштування з перефразуванням досягає лише 0,504–0,511 — RAG більш ніж удвічі перевищив приріст точності, якого вдалося досягти тонким налаштуванням на фактах поза межами дати відсікання навчання.
  • Стеля тонкого налаштування — це наявні знання, а не нові: Навіть у предметах MMLU, які моделі вже зустрічали під час попереднього навчання, тонке налаштування дає лише скромні результати; RAG все одно перевершує його в усіх п'яти предметах.
  • Перефразування допомагає, але повільно: Згенеровані GPT-4 перефразування кожного навчального фрагмента монотонно покращують результати тонкого налаштування — 10 версій стабільно перемагають 1 — і автори припускають, що це може частково вирішити «Прокляття зворотності» (Berglund et al., arXiv:2309.12288), коли моделі, навчені на «А це Б», не можуть узагальнити до «Б це А». Вони зазначають, що цей зв'язок потребує подальших досліджень.
  • Катастрофічне забування — це реальна ціна: Llama2 без доповнення даних показала значне погіршення точності на раніше вивчених завданнях після тонкого налаштування на поточних подіях. RAG повністю уникає цього.
  • Поєднання обох підходів не допомагає стабільно: Тонке налаштування + RAG досягло 0,520–0,830 у завданні з поточними подіями, що іноді нижче, ніж показники тільки RAG. Схоже, тонке налаштування заважає моделі ефективно використовувати контекст пошуку.

Що підтверджується, а що ні

Основний висновок заслуговує на довіру. Набору даних з 910 питань із чіткою часовою відсічкою достатньо, щоб довіряти напрямку результату: неконтрольоване тонке налаштування є поганим інструментом для впровадження справді нових фактів. Дизайн оцінювання чистий, а розміри ефекту значні.

Однак є й «сліпі плями». Усі три протестовані моделі мають 7 млрд параметрів — ми не знаємо, чи зменшується або зростає розрив у тонкому налаштуванні з моделями рівня Frontier. Що ще важливіше, метод тонкого налаштування — це суворо неконтрольоване прогнозування наступного токена. Ніякого LoRA, ніякого налаштування інструкцій, ніяких контрольованих пар запитання-відповідь. RAFT (Zhang et al., arXiv:2403.10131) та подібні підходи до контрольованої адаптації до домену є більш конкурентоспроможними базовими лініями, які ця робота не розглядає. Висновок «тонке налаштування програє» насправді означає «неконтрольоване тонке налаштування програє», що є більш вузьким твердженням.

Реалізація RAG також є досить простою: базовий щільний пошук із FAISS та BGE-large-en, без переранжування чи розширення запитів. У примітці до додатку визнається, що оптимальне значення K суттєво варіюється залежно від моделей і завдань — вибір неправильної кількості отриманих уривків значно погіршує продуктивність. У продакшені налаштування K для кожного домену є нетривіальною операційною витратою.

Одне твердження, з яким я б посперечався: автори представляють висновок про те, що перефразування допомагає тонкому налаштуванню, як потенційний засіб пом'якшення «Прокляття зворотності», але їхні докази непрямі. Монотонне покращення зі збільшенням кількості перефраз може просто відображати стандартні переваги доповнення даних (data augmentation), а не будь-яке структурне виправлення двонаправленого узагальнення. Зв'язок цікавий, але не доведений.

Чому це важливо для ШІ у фінансах

Це одна з найбільш практично корисних робіт для планів Bean Labs. Агент Beancount не може перенавчатися кожного разу, коли додається транзакція, змінюється правило або починається новий фінансовий рік. Стаття рішуче підтримує розгляд головної книги як корпусу для пошуку, а не матеріалу для тонкого налаштування: фактичні вигоди від тонкого налаштування скромні, ризик катастрофічного забування реальний, а операційні витрати на перенавчання набагато перевищують витрати на переіндексацію.

Висновки щодо перефразування вказують на щось корисне, навіть якщо ми відкинемо тонке налаштування. Якщо специфічне правило бухгалтерського обліку має бути глибоко вкорінене в поведінці моделі — не просто знайдено, а надійно виконано — вираження його в кількох формах (обмеження, перевірка валідації, практичний приклад порушення), ймовірно, буде надійнішим, ніж одна канонічна заява. Саме так працює навчання бухгалтерському обліку, і це узгоджується з тим, як дослідження дотримання правил Constitutional AI формулюють охоплення правил.

Результат щодо катастрофічного забування є найчіткішим практичним попередженням: неконтрольована адаптація до домену на даних головної книги може погіршити загальні аналітичні здібності, необхідні для виявлення аномалій та відповідей на запити. Пошук (RAG) уникає цього ціною індексу та пошукової системи — обмін, який варто зробити.

Що почитати далі

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — робота, на яку посилаються Овадія та ін.; пояснює, чому LLM не справляються з двонаправленими висновками з навчальних даних, і окреслює фундаментальні межі тонкого налаштування для впровадження фактів.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — рецепт контрольованого тонкого налаштування, розроблений для роботи разом із RAG, а не замість нього; більш конкурентоспроможна базова лінія тонкого налаштування, ніж неконтрольований підхід, протестований тут.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — розширює порівняння на знання про маловідомі сутності (long-tail entities), де RAG знову домінує, і пропонує Stimulus RAG як легку альтернативу.