Перейти к контенту

Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Вопрос, к которому я постоянно возвращаюсь при проектировании агентов Beancount, звучит так: когда данные в вашем ledger-файле меняются, следует ли дообучать модель на новых фактах или построить систему поиска (retrieval)? Работа Овадии и др. «Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs» (EMNLP 2024, arXiv:2312.05934) дает самый четкий эмпирический ответ, который я встречал, и он идет вразрез с хайпом вокруг дообучения.

Исследование

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Одед Овадия, Менахем Бриф, Мошик Мишаэли и Орен Элиша сравнивают два подхода к обновлению знаний LLM: неконтролируемое непрерывное предварительное обучение (модель читает новый текст и продолжает предсказание следующего токена) и RAG (модель получает извлеченные фрагменты текста во время запроса). Они протестировали три модели с 7 млрд параметров — Llama2-7B, Mistral-7B и Orca2-7B — в двух областях знаний: подмножество MMLU, охватывающее анатомию, астрономию, биологию и химию (знания, которые модели, вероятно, видели при обучении), и кастомный датасет текущих событий из 910 вопросов с несколькими вариантами ответов о событиях в США с августа по ноябрь 2023 года, которые явно выходят за рамки даты отсечки обучения моделей. Пайплайн RAG использует эмбеддинги BGE-large-en поверх индекса FAISS. Дообучение (fine-tuning) представляет собой неконтролируемое обучение каузальной языковой модели на фрагментах Википедии по 256 токенов на 4 GPU A100.

Ключевые идеи

  • RAG доминирует на действительно новых знаниях: В задаче с текущими событиями один только RAG показал результат 0,875 (Mistral) и 0,876 (Orca) против базовых показателей моделей 0,353–0,481. Неконтролируемое дообучение с перефразированием достигло лишь 0,504–0,511 — RAG более чем вдвое увеличил прирост точности, которого удалось добиться с помощью дообучения на фактах после даты отсечки.
  • Потолок дообучения — существующие знания, а не новые: Даже по предметам MMLU, с которыми модели уже сталкивались во время предварительного обучения, дообучение дает лишь скромный прирост; RAG по-прежнему превосходит его по всем пяти предметам.
  • Перефразирование помогает, но медленно: Сгенерированные GPT-4 перефразирования каждого тренировочного фрагмента монотонно улучшают результаты дообучения — 10 версий стабильно лучше, чем одна. Авторы предполагают, что это может частично решить проблему «проклятия обратимости» (Reversal Curse, Berglund et al., arXiv:2309.12288), когда модели, обученные на фразе «А — это Б», не могут обобщить, что «Б — это А». Они осторожно отмечают, что эта связь требует дальнейших исследований.
  • Катастрофическое забывание — реальная проблема: Llama2 без аугментации данных показала значительное снижение точности на ранее изученных задачах после дообучения на текущих событиях. RAG полностью избегает этой проблемы.
  • Сочетание обоих методов не помогает гарантированно: Комбинация дообучения и RAG достигла 0,520–0,830 в условиях текущих событий, что иногда оказывалось ниже показателей одного только RAG. Похоже, дообучение мешает способности модели использовать извлеченный контекст.

Что подтверждается, а что нет

Основной вывод заслуживает доверия. Датасета из 910 вопросов с четкой временной отсечкой достаточно, чтобы доверять направлению результата: неконтролируемое дообучение — плохой инструмент для внедрения действительно новых фактов. Дизайн оценки чист, а величина эффекта значительна.

Слепые зоны также присутствуют. Все три протестированные модели имеют 7 млрд параметров — мы не знаем, сокращается или растет разрыв в дообучении у моделей уровня frontier. Что еще важнее, метод дообучения — это строго неконтролируемое предсказание следующего токена. Ни LoRA, ни настройки инструкций, ни пар вопросов и ответов для обучения с учителем. RAFT (Zhang et al., arXiv:2403.10131) и аналогичные подходы к контролируемой доменной адаптации являются более конкурентоспособными базовыми линиями, которые в этой статье не рассматриваются. Вывод «дообучение проигрывает» на самом деле означает «неконтролируемое дообучение проигрывает», что является более узким утверждением.

Реализация RAG также скромная: базовый плотный поиск с FAISS и BGE-large-en, без переранжирования (reranking) или расширения запросов. В приложении отмечается, что оптимальное значение K существенно варьируется в зависимости от моделей и задач — выбор неправильного количества извлеченных фрагментов значительно снижает производительность. В продакшене настройка K для каждого домена является нетривиальной операционной задачей.

Один тезис я бы оспорил: авторы преподносят вывод о том, что перефразирование помогает дообучению, как потенциальное смягчение «проклятия обратимости», но их доказательства косвенные. Монотонное улучшение с ростом количества перефразирований может просто отражать стандартные преимущества аугментации данных, а не структурное исправление двунаправленного обобщения. Связь интересная, но не доказанная.

Почему это важно для ИИ в финансах

Это одна из самых применимых на практике статей для программы Bean Labs. Агент Beancount не может переобучаться каждый раз, когда добавляется транзакция, меняется правило или начинается новый финансовый год. Статья убедительно подтверждает целесообразность рассмотрения реестра (ledger) как корпуса для поиска, а не материала для дообучения: фактический выигрыш от дообучения невелик, риск катастрофического забывания реален, а операционные затраты на переобучение намного превышают стоимость переиндексации.

Вывод о перефразировании указывает на нечто полезное, даже если мы отложим дообучение. Если специфическое для домена бухгалтерское правило должно быть глубоко встроено в поведение модели — не просто извлекаться, а надежно исполняться, — его выражение в нескольких формах (ограничение, проверка валидации, пример нарушения) будет более надежным, чем одна каноническая формулировка. Именно так работает обучение бухгалтерскому учету, и это согласуется с тем, как исследования соблюдения правил в Конституционном ИИ (Constitutional AI) формулируют охват правил.

Результат о катастрофическом забывании — это самое четкое практическое предупреждение: неконтролируемая доменная адаптация на данных главной книги может ухудшить общие способности к рассуждению, необходимые для обнаружения аномалий и ответов на запросы. Поиск решает эту проблему ценой индекса и поискового механизма — обмен, который стоит того.

Что почитать дальше

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — статья, на которую ссылаются Овадия и др.; объясняет, почему LLM не справляются с двунаправленной импликацией из обучающих данных, и описывает фундаментальные ограничения дообучения для внедрения фактов.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — рецепт контролируемого дообучения, разработанный для работы вместе с RAG, а не для его замены; более конкурентоспособная базовая линия дообучения, чем неконтролируемый подход, протестированный здесь.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — расширяет сравнение на знания о редких объектах (long-tail entities), где RAG снова доминирует, и предлагает Stimulus RAG в качестве легковесной альтернативы.