Doorgaan naar hoofdinhoud

Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

De vraag waar ik steeds op terugkom bij het ontwerpen van Beancount-agents is deze: wanneer uw grootboekgegevens veranderen, moet u het model dan fine-tunen op de nieuwe feiten of een retrieval-systeem bouwen? "Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs" van Ovadia et al. (EMNLP 2024, arXiv:2312.05934) geeft het duidelijkste empirische antwoord dat ik heb gevonden, en het gaat lijnrecht in tegen de fine-tuning-hype.

Het onderzoek

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Oded Ovadia, Menachem Brief, Moshik Mishaeli en Oren Elisha vergelijken twee benaderingen voor het bijwerken van de kennis van een LLM: ongecontroleerde voortgezette pre-training (het model leest nieuwe tekst en gaat door met next-token-voorspelling) en RAG (het model ontvangt opgehaalde fragmenten op het moment van de query). Ze testen drie modellen met 7 miljard parameters — Llama2-7B, Mistral-7B en Orca2-7B — op twee kennisdomeinen: een subset van MMLU die anatomie, astronomie, biologie en scheikunde omvat (kennis die de modellen waarschijnlijk al hebben gezien tijdens de pre-training), en een aangepaste actualiteitendataset van 910 meerkeuzevragen over Amerikaanse gebeurtenissen van augustus tot november 2023, expliciet buiten de trainings-cutoffs van de modellen. De RAG-pipeline gebruikt BGE-large-en embeddings over een FAISS-index. Fine-tuning voert ongecontroleerde causale LM-training uit op Wikipedia-chunks van 256 tokens op 4 A100 GPU's.

Belangrijkste inzichten

  • RAG domineert bij echt nieuwe kennis: Bij de actualiteitentaak scoort alleen RAG al 0.875 (Mistral) en 0.876 (Orca) tegenover base-model baselines van 0.353–0.481. Ongecontroleerde fine-tuning met parafrasering bereikt slechts 0.504–0.511 — RAG meer dan verdubbelde de nauwkeurigheidswinst die fine-tuning behaalde op feiten van na de trainings-cutoff.
  • Het plafond van fine-tuning is bestaande kennis, niet nieuwe: Zelfs bij MMLU-onderwerpen die de modellen al waren tegengekomen tijdens de pre-training, levert fine-tuning slechts bescheiden winst op; RAG presteert nog steeds beter over alle vijf de onderwerpen.
  • Parafrases helpen, maar langzaam: Door GPT-4 gegenereerde parafrases van elk trainingsfragment verbeteren de fine-tuning-resultaten monotoon — 10 versies verslaan consequent 1 versie — en de auteurs suggereren dat dit gedeeltelijk de Reversal Curse kan aanpakken (Berglund et al., arXiv:2309.12288), waarbij modellen getraind op "A is B" er niet in slagen om te generaliseren naar "B is A". Ze merken wel op dat dit verband verder onderzoek vereist.
  • Catastrofale vergetelheid is een reële kostenpost: Llama2 vertoonde zonder data-augmentatie een aanzienlijke verslechtering van de nauwkeurigheid op eerder geleerde taken na fine-tuning op actuele gebeurtenissen. RAG omzeilt dit volledig.
  • Het combineren van beide helpt niet betrouwbaar: Fine-tuning + RAG bereikte 0.520–0.830 in de actualiteitensituatie, soms zelfs onder de resultaten van alleen RAG. Fine-tuning lijkt het vermogen van het model om opgehaalde context te gebruiken te verstoren.

Wat houdt stand — en wat niet

De kernbevinding is geloofwaardig. Een dataset van 910 vragen met een duidelijke temporele cutoff is voldoende om de richting van het resultaat te vertrouwen: ongecontroleerde fine-tuning is een slecht middel om echt nieuwe feiten te injecteren. Het onderzoeksontwerp is helder en de effectgroottes zijn aanzienlijk.

Er zijn echter ook blinde vlekken. Alle drie de geteste modellen hebben 7 miljard parameters — we weten niet of de kloof bij fine-tuning kleiner wordt of groeit bij frontier-modellen op grotere schaal. Belangrijker nog is dat de fine-tuning-methode strikt ongecontroleerde next-token-voorspelling is. Geen LoRA, geen instruction tuning, geen gesuperviseerde QA-paren. RAFT (Zhang et al., arXiv:2403.10131) en vergelijkbare gesuperviseerde domeinaanpassingsbenaderingen zijn competitievere baselines die in dit artikel niet aan bod komen. De conclusie "fine-tuning verliest" is eigenlijk "ongecontroleerde fine-tuning verliest", wat een specifiekere bewering is.

De RAG-implementatie is ook bescheiden: eenvoudige dense retrieval met FAISS en BGE-large-en, zonder reranking of query-expansie. Een opmerking in de appendix erkent dat de optimale K aanzienlijk varieert per model en taak — het kiezen van het verkeerde aantal opgehaalde fragmenten schaadt de prestaties aanzienlijk. In productie zijn de operationele kosten voor het afstemmen van K per domein niet te verwaarlozen.

Eén bewering zou ik willen nuanceren: de auteurs presenteren de bevinding dat parafraseren fine-tuning helpt als een mogelijke verzachting van de Reversal Curse, maar hun bewijs is indirect. De monotone verbetering bij het aantal parafrases zou ook gewoon de standaardvoordelen van data-augmentatie kunnen weerspiegelen, in plaats van een structurele oplossing voor bidirectionele generalisatie. Het verband is interessant, maar niet bewezen.

Waarom dit belangrijk is voor financiële AI

Dit is een van de meest direct toepasbare papers voor de agenda van Bean Labs. Een Beancount-agent kan niet elke keer opnieuw worden getraind wanneer er een transactie wordt toegevoegd, een regel verandert of een nieuw fiscaal jaar begint. Het artikel ondersteunt sterk het idee om het grootboek te behandelen als een retrieval-corpus in plaats van als materiaal voor fine-tuning: de feitelijke winst van fine-tuning is bescheiden, het risico op catastrofale vergetelheid is reëel, en de operationele kosten van hertraining overstijgen de kosten van herindexering ruimschoots.

De bevinding over parafraseren wijst op iets nuttigs, zelfs als we fine-tuning buiten beschouwing laten. Als een domeinspecifieke boekhoudregel diep in het gedrag van een model moet worden verankerd — niet alleen opgehaald, maar ook betrouwbaar gevolgd — dan is het uitdrukken ervan in meerdere vormen (beperking, validatiecontrole, uitgewerkt voorbeeld van een overtreding) waarschijnlijk robuuster dan een enkele canonieke verklaring. Dat is hoe boekhoudonderwijs werkt, en het komt overeen met hoe de onderzoeken naar het volgen van regels door Constitutional AI de regeldekking kaderen.

Het resultaat over catastrofale vergetelheid is de duidelijkste praktische waarschuwing: ongecontroleerde domeinaanpassing op grootboekgegevens kan de algemene redeneercapaciteiten aantasten die nodig zijn voor anomaliedetectie en het beantwoorden van queries. Retrieval omzeilt dit ten koste van een index en een retriever — een afweging die de moeite waard is.

Wat nu te lezen

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — het artikel dat Ovadia et al. aanhalen; legt uit waarom LLM's falen bij bidirectionele implicatie uit trainingsdata en kadert de fundamentele beperkingen van fine-tuning voor feitelijke injectie.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — een recept voor gesuperviseerde fine-tuning dat is ontworpen om samen met RAG te werken in plaats van het te vervangen; een competitievere fine-tuning baseline dan de hier geteste ongecontroleerde benadering.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — breidt de vergelijking uit naar long-tail entiteitskennis, waar RAG opnieuw domineert, en stelt Stimulus RAG voor als een lichtgewicht alternatief.