Prejsť na hlavný obsah

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Otázka, ku ktorej sa neustále vraciam pri navrhovaní agentov Beancount, je táto: keď sa zmenia údaje vo vašej účtovnej knihe, mali by ste model jemne doladiť na nových faktoch alebo vybudovať systém vyhľadávania? Štúdia "Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs" od Ovadia et al. (EMNLP 2024, arXiv:2312.05934) poskytuje najjasnejšiu empirickú odpoveď, akú som našiel, a ostro vystupuje proti humbugu okolo jemného doladenia.

Štúdia

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Oded Ovadia, Menachem Brief, Moshik Mishaeli a Oren Elisha porovnávajú dva prístupy k aktualizácii toho, čo LLM ovláda: neriadené kontinuálne predtrénovanie (model číta nový text a pokračuje v predpovedaní ďalšieho tokenu) a RAG (model dostáva vyhľadané pasáže v čase dopytu). Testujú tri modely so 7 miliardami parametrov — Llama2-7B, Mistral-7B a Orca2-7B — v dvoch doménach znalostí: podmnožine MMLU pokrývajúcej anatómiu, astronómiu, vysokoškolskú biológiu a chémiu (znalosti, ktoré modely pravdepodobne videli pri predtrénovaní), a vlastnom resete aktuálnych udalostí s 910 otázkami s výberom odpovede o udalostiach v USA od augusta do novembra 2023, ktoré sú explicitne mimo tréningového rámca modelov. Pipeline RAG využíva embeddingy BGE-large-en nad indexom FAISS. Jemné doladenie prebieha ako neriadený kauzálny tréning LM na častiach Wikipédie o dĺžke 256 tokenov na štyroch GPU A100.

Hlavné myšlienky

  • RAG dominuje pri skutočne nových znalostiach: Pri úlohe s aktuálnymi udalosťami dosahuje samotný RAG skóre 0,875 (Mistral) a 0,876 (Orca) oproti základným hodnotám modelov 0,353 – 0,481. Neriadené jemné doladenie s parafrázovaním dosahuje iba 0,504 – 0,511 — RAG viac ako zdvojnásobil nárast presnosti, ktorý dosiahlo jemné doladenie pri faktoch po dátume ukončenia tréningu.
  • Stropom jemného doladenia sú existujúce znalosti, nie nové: Dokonca aj v predmetoch MMLU, s ktorými sa modely stretli už počas predtrénovania, prináša jemné doladenie len mierne zisky; RAG stále prekonáva doladenie vo všetkých piatich predmetoch.
  • Parafrázy pomáhajú, ale pomaly: Parafrázy každého tréningového bloku generované pomocou GPT-4 zlepšujú výsledky jemného doladenia monotónne — 10 verzií konzistentne poráža 1 — a autori naznačujú, že to môže čiastočne riešiť "Kliatbu obrátenia" (Berglund et al., arXiv:2309.12288), kde modely trénované na "A je B" nedokážu zovšeobecniť na "B je A". Upozorňujú však, že toto prepojenie si vyžaduje ďalší výskum.
  • Katastrofické zabúdanie je reálnym nákladom: Llama2 bez augmentácie dát ukázala po jemnom doladení na aktuálnych udalostiach výrazné zhoršenie presnosti pri predtým naučených úlohách. RAG sa tomuto úplne vyhýba.
  • Kombinovanie oboch spoľahlivo nepomáha: Jemné doladenie + RAG dosiahlo v podmienkach aktuálnych udalostí hodnoty 0,520 – 0,830, čo bolo niekedy menej ako samotný RAG. Zdá sa, že jemné doladenie narúša schopnosť modelu využívať vyhľadaný kontext.

Čo obstojí — a čo nie

Hlavné zistenie je dôveryhodné. Dataset s 910 otázkami s jasným časovým ohraničením stačí na to, aby sme verili smerovaniu výsledku: neriadené jemné doladenie je slabým nástrojom na vkladanie skutočne nových faktov. Dizajn hodnotenia je čistý a veľkosť efektov je značná.

Slepé miesta sú však tiež reálne. Všetky tri testované modely majú 7B parametrov — nevieme, či sa priepasť pri jemnom doladení zmenšuje alebo zväčšuje pri modeloch s obrovskou škálou. Čo je dôležitejšie, použitá metóda jemného doladenia je striktne neriadená predpoveď ďalšieho tokenu. Žiadne LoRA, žiadne inštrukčné ladenie (instruction tuning), žiadne dvojice otázka-odpoveď pod dohľadom. RAFT (Zhang et al., arXiv:2403.10131) a podobné prístupy k doménovej adaptácii s dohľadom sú konkurencieschopnejšie základy, ktorými sa táto práca nezaoberá. Záver "jemné doladenie prehráva" je v skutočnosti "neriadené jemné doladenie prehráva", čo je užšie tvrdenie.

Implementácia RAG je tiež skromná: základné husté vyhľadávanie (dense retrieval) s FAISS a BGE-large-en, bez prehodnocovania poradia (reranking) alebo rozširovania dopytov. Poznámka v dodatku priznáva, že optimálne K sa podstatne líši v závislosti od modelov a úloh — výber nesprávneho počtu vyhľadaných pasáží výrazne znižuje výkon. V produkcii predstavuje ladenie K pre každú doménu netriviálny prevádzkový náklad.

Jedno tvrdenie, voči ktorému by som namietal: autori rámcujú zistenie o pomoci parafráz pri jemnom doladení ako potenciálne zmiernenie Kliatby obrátenia, ale ich dôkaz je nepriamy. Monotónne zlepšovanie s počtom parafráz by mohlo odrážať len štandardné výhody augmentácie dát, nie nevyhnutne štrukturálnu opravu obojsmernej generalizácie. Toto spojenie je zaujímavé, ale nebolo preukázané.

Prečo je to dôležité pre finančnú AI

Toto je jeden z najpriamejšie aplikovateľných článkov pre agendu Bean Labs. Agent Beancount nemôže byť pretrénovaný zakaždým, keď sa pridá transakcia, zmení sa pravidlo alebo začne nový fiškálny rok. Práca silne podporuje zaobchádzanie s účtovnou knihou ako s korpusom na vyhľadávanie, a nie ako s materiálom na jemné doladenie: faktické zisky z jemného doladenia sú mierne, riziko katastrofického zabúdania je reálne a prevádzkové náklady na pretrénovanie ďaleko presahujú náklady na reindexáciu.

Zistenie o parafrázach ukazuje na niečo užitočné, aj keď odhliadneme od jemného doladenia. Ak má byť špecifické účtovné pravidlo hlboko zakomponované do správania modelu — nielen vyhľadávané, ale spoľahlivo dodržiavané — jeho vyjadrenie v viacerých formách (obmedzenie, overenie, spracovaný príklad porušenia) je pravdepodobne robustnejšie ako jediné kanonické vyhlásenie. Takto funguje účtovné vzdelávanie a je to v súlade s tým, ako štúdie o dodržiavaní pravidiel v Konštitučnej AI (Constitutional AI) definujú pokrytie pravidiel.

Výsledok o katastrofickom zabúdaní je najjasnejším praktickým varovaním: neriadená doménová adaptácia na údajoch z účtovnej knihy môže degradovať všeobecné uvažovacie schopnosti potrebné na detekciu anomálií a odpovedanie na dopyty. Vyhľadávanie sa tomu vyhýba za cenu indexu a retrievera — čo je výmena, ktorá sa oplatí.

Čo čítať ďalej

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — práca, na ktorú sa Ovadia et al. odvolávajú; vysvetľuje, prečo LLM zlyhávajú pri obojsmernej implikácii z tréningových dát a definuje fundamentálne limity jemného doladenia pre vkladanie faktov.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — recept na jemné doladenie pod dohľadom navrhnutý tak, aby fungoval spolu s RAG, namiesto toho, aby ho nahradil; konkurencieschopnejší základ pre jemné doladenie než neriadený prístup testovaný tu.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — rozširuje porovnanie na znalosti o menej známych entitách, kde RAG opäť dominuje, a navrhuje Stimulus RAG ako ľahkú alternatívu.