Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM
Въпросът, към който постоянно се връщам, когато проектирам Beancount агенти, е следният: когато данните в главната ви книга се променят, трябва ли да донастроите модела според новите факти или да изградите система за извличане? Статията на Ovadia и съавт. „Фино донастройване или извличане? Сравнение на вграждането на знания в LLM“ (EMNLP 2024, arXiv:2312.05934) дава най-ясния емпиричен отговор, който съм намирал, и той рязко противоречи на хайпа около финото донастройване.
Изследването
Одед Овадия, Менахем Бриф, Мошик Мишаели и Орен Елиша сравняват два подхода за актуализиране на това, което един LLM знае: неконтролирано непрекъснато предварително обучение (моделът чете нов текст и продължава предсказването на следващ токен) и RAG (моделът получава извлечени пасажи по време на заявката). Те тестват три модела със 7 млрд. параметри — Llama2-7B, Mistral-7B и Orca2-7B — в два домейна на знание: подмножество на MMLU, обхващащо анатомия, астрономия, колежанска биология и химия (знания, които моделите вероятно са виждали при предварителното обучение), и персонализиран набор от данни за текущи събития от 910 въпроса с избор между няколко отговора за събития в САЩ от август–ноември 2023 г., които са извън крайните срокове за обучение на моделите. Конвейерът на RAG използва BGE-large-en ембединги върху FAISS индекс. Финото донастройване се състои в неконтролирано обучение на каузален езиков модел (causal LM) върху части от Wikipedia от 256 токена на 4 графични процесора A100.
Ключови идеи
- RAG доминира при действително нови знания: При задачата с текущи събития само RAG постига резултати от 0,875 (Mistral) и 0,876 (Orca) спрямо базовите нива на моделите от 0,353–0,481. Неконтролираното фино донастройване с парафразиране достига едва 0,504–0,511 — RAG повече от удвоява печалбата в точността, която финото донастройване постига при факти извън крайния срок на обучение.
- Таванът на финото донастройване са съществуващите знания, а не новите: Дори по предмети от MMLU, които моделите вече са срещали по време на предварителното обучение, финото донастройване дава само скромни подобрения; RAG все пак се представя по-добре и в петте предмета.
- Парафразите помагат, но бавно: Генерираните от GPT-4 парафрази на всяка обучителна част подобряват резултатите от финото донастройване монотонно — 10 версии последователно побеждават 1 — и авторите предполагат, че това може частично да реши Проблема с обръ щането (Reversal Curse) (Berglund et al., arXiv:2309.12288), където моделите, обучени на „А е Б“, не успяват да обобщят до „Б е А“. Те внимателно отбелязват, че връзката изисква по-нататъшни изследвания.
- Катастрофалното забравяне е реална цена: Llama2 без аугментация на данни показа значително влошаване на точността при задачи, научени по-рано, след фино донастройване върху текущи събития. RAG избягва това напълно.
- Комбинирането на двете не помага надеждно: Фино донастройване + RAG достигна 0,520–0,830 в условието за текущи събития, понякога под резултатите само на RAG. Финото донастройване изглежда пречи на способността на модела да използва извлечения контекст.
Какво се потвърждава — и какво не
Основното откритие е достоверно. Набор от данни от 910 въпроса с ясен времеви отрез е достатъчен, за да се доверим на посоката на резултата: неконтролирано то фино донастройване е лош инструмент за вграждане на действително нови факти. Дизайнът на оценката е чист, а размерите на ефекта са големи.
Слепите петна също са реални. И трите тествани модела са със 7 млрд. параметри — не знаем дали разликата при финото донастройване се свива или расте при модели от най-висок клас (frontier models). По-важното е, че методът на фино донастройване е строго неконтролирано предсказване на следващ токен. Няма LoRA, няма донастройване чрез инструкции (instruction tuning), няма контролирани двойки въпрос-отговор. RAFT (Zhang et al., arXiv:2403.10131) и подобни контролирани подходи за адаптация към домейн са по-конкурентни базови нива, които тази статия не разглежда. Заключението „финото донастройване губи“ всъщност е „неконтролираното фино донастройване губи“, което е по-тясно твърдение.
Имплементацията на RAG също е скромна: основно плътно извличане (dense retrieval) с FAISS и BGE-large-en, без прекласиране (reranking) или разширяване на заявките. Бележка в приложението признава, че оптималното К варира значително при различните модели и задачи — изборът на грешен брой извлечени пасажи значително влошава производителността. В реална среда настройката на К за всеки домейн е нетривиален оперативен разход.
Едно твърдение, което бих оспорил: авторите представят констатацията, че парафразите помагат на финото донастройване, като потенциално смекчаващо Проблема с обръщането, но доказателствата им са косвени. Монотонното подобрение с броя на парафразите може просто да отразява стандартните ползи от аугментацията на данни, а не структурно решение за двупосочно обобщаване. Връзката е интересна, но не е доказана.
Защо това е важно за ИИ във финансите
Това е една от най-директно приложимите статии за програмата на Bean Labs. Един Beancount агент не може да бъде преобучаван всеки път, когато се добави транзакция, промени се правило или започне нова фискална година. Статията силно подкрепя третирането на главната книга като корпус за извличане, а не като материал за фино донастройване: ползите от фактологична гледна точка при финото донастройване са скромни, рискът от катастрофално забравяне е реален, а оперативните разходи за преобучаване далеч надвишават разходите за преиндексиране.
Констатацията за парафразите сочи към нещо полезно, дори ако оставим финото донастройване настрана. Ако дадено специфично за домейна счетоводно правило трябва да бъде вградено дълбоко в поведението на модела — не просто извлечено, а надеждно спазвано — изразяването му в множество форми (ограничение, проверка за валидиране, работен пример за нарушение) вероятно е по-стабилно от едно единствено канонично твърдение. Така работи счетоводното образование и това е в съответствие с начина, по който изследванията за спазване на правила в Конституционалния ИИ (Constitutional AI) рамкират обхвата на правилата.
Резултатът за катастрофалното забравяне е най-ясното практическо предупреждение: неконтролираната адаптация към домейн върху данни от главната книга може да влоши общите способности за разсъждение, необходими за откриване на аномалии и отговаряне на заявки. Извличането избягва това на цената на индекс и ретривър — замяна, която си заслужава.
Какво да прочетете след това
- The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — статията, която Ovadia и съавт. цитират; обяснява защо LLM се провалят при двупосочната импликация от обучителни данни и рамкира фундаменталните граници на финото донастройване за вграждане на факти.
- RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — рецепта за контролирано фино донастройване, проектирана да работи с RAG, а не да го замества; по-конкурентно базово ниво за фино донастройване от тествания тук неконтролиран подход.
- Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — разширява сравнението до познания за слабо известни обекти (long-tail entities), където RAG отново доминира, и предлага Stimulus RAG като олекотена алтернатива.
