Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt
Die Frage, zu der ich beim Entwurf von Beancount-Agenten immer wieder zurückkehre, ist folgende: Wenn sich Ihre Ledger-Daten ändern, sollten Sie das Modell auf die neuen Fakten feinabstimmen oder ein Retrieval-System aufbauen? Ovadia et al. liefern in „Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs“ (EMNLP 2024, arXiv:2312.05934) die klarste empirische Antwort, die ich bisher gefunden habe, und sie steht in krassem Gegensatz zum Fine-Tuning-Hype.
Das Paper
Oded Ovadia, Menachem Brief, Moshik Mishaeli und Oren Elisha vergleichen zwei Ansätze zur Aktualisierung des Wissens eines LLMs: unüberwachtes kontinuierliches Pre-Training (das Modell liest neuen Text und setzt die Next-Token-Vorhersage fort) und RAG (das Modell erhält zum Abfragezeitpunkt abgerufene Passagen). Sie testen drei 7B-Parameter-Modelle – Llama2-7B, Mistral-7B und Orca2-7B – in zwei Wissensdomänen: einer Teilmenge von MMLU, die Anatomie, Astronomie, Biologie und Chemie abdeckt (Wissen, das die Modelle wahrscheinlich im Pre-Training gesehen haben), und einem benutzerdefinierten Zeitgeschehen-Datensatz mit 910 Multiple-Choice-Fragen zu US-Ereignissen von August bis November 2023, die explizit nach dem Trainingsstopp der Modelle liegen. Die RAG-Pipeline verwendet BGE-large-en Embeddings über einen FAISS-Index. Das Fine-Tuning erfolgt über unüberwachtes kausales LM-Training auf Wikipedia-Abschnitten von 256 Token auf 4 A100-GPUs.
Kernideen
- RAG dominiert bei echtem neuen Wissen: Bei der Zeitgeschehen-Aufgabe erreicht RAG allein Werte von 0,875 (Mistral) und 0,876 (Orca) gegenüber Basismodell-Baselines von 0,353–0,481. Unüberwachtes Fine-Tuning mit Paraphrasierung erreicht nur 0,504–0,511 – RAG hat den Genauigkeitsgewinn, den Fine-Tuning bei Fakten nach dem Trainingsstopp erzielte, mehr als verdoppelt.
- Die Obergrenze von Fine-Tuning ist vorhandenes Wissen, nicht neues: Selbst bei MMLU-Themen, denen die Modelle bereits während des Pre-Trainings begegnet waren, bringt Fine-Tuning nur bescheidene Gewinne; RAG übertrifft es weiterhin in allen fünf Fachbereichen.
- Paraphrasen helfen, aber langsam: Von GPT-4 generierte Paraphrasen jedes Trainingsabschnitts verbessern die Fine-Tuning-Ergebnisse monoton – 10 Versionen schlagen konsequent eine Version – und die Autoren vermuten, dass dies teilweise den „Reversal Curse“ (Berglund et al., arXiv:2309.12288) adressieren könnte, bei dem Modelle, die auf „A ist B“ trainiert wurden, nicht auf „B ist A“ generalisieren können. Sie weisen jedoch vorsorglich darauf hin, dass dieser Zusammenhang weiterer Forschung bedarf.
- Katastrophales Vergessen ist ein realer Preis: Llama2 zeigte ohne Datenaugmentation eine signifikante Verschlechterung der Genauigkeit bei zuvor gelernten Aufgaben nach dem Fine-Tuning auf aktuelle Ereignisse. RAG umgeht dies vollständig.
- Die Kombination von beidem hilft nicht zuverlässig: Fine-Tuning + RAG erreichte in der Zeitgeschehen-Bedingung 0,520–0,830, was teilweise unter RAG allein lag. Fine-Tuning scheint die Fähigkeit des Modells zu beeinträchtigen, den abgerufenen Kontext effektiv zu nutzen.
Was Bestand hat – und was nicht
Das Kernergebnis ist glaubwürdig. Ein Datensatz mit 910 Fragen und einem sauberen zeitlichen Schnitt reicht aus, um der Tendenz des Ergebnisses zu vertrauen: Unüberwachtes Fine-Tuning ist ein schlechtes Mittel, um wirklich neue Fakten zu injizieren. Das Evaluationsdesign ist sauber und die Effektstärken sind groß.
Die blinden Flecken sind ebenfalls real. Alle drei getesteten Modelle haben 7B Parameter – wir wissen nicht, ob die Fine-Tuning-Lücke bei Modellen auf Frontier-Niveau schrumpft oder wächst. Wichtiger ist, dass die Fine-Tuning-Methode strikt auf unüberwachter Next-Token-Vorhersage basiert. Kein LoRA, kein Instruction-Tuning, keine überwachten QA-Paare. RAFT (Zhang et al., arXiv:2403.10131) und ähnliche überwachte Domänenanpassungs-Ansätze sind wettbewerbsfähigere Baselines, auf die dieses Paper nicht eingeht. Die Schlussfolgerung „Fine-Tuning verliert“ bezieht sich eigentlich auf „unüberwachtes Fine-Tuning verliert“, was eine engere Behauptung ist.
Die RAG-Implementierung ist ebenfalls bescheiden: einfaches Dense-Retrieval mit FAISS und BGE-large-en, ohne Reranking oder Query-Expansion. Ein Hinweis im Anhang räumt ein, dass das optimale K je nach Modell und Aufgabe erheblich variiert – die Wahl der falschen Anzahl abgerufener Passagen beeinträchtigt die Leistung erheblich. In der Produktion sind K-Tuning-Kosten pro Domäne ein nicht trivialer operativer Aufwand.
Einer Behauptung würde ich widersprechen: Die Autoren stellen den Befund, dass Paraphrasen beim Fine-Tuning helfen, als potenzielle Milderung des Reversal Curse dar, aber ihre Beweise sind indirekt. Die monotone Verbesserung mit der Anzahl der Paraphrasen könnte lediglich die standardmäßigen Vorteile der Datenaugmentation widerspiegeln und keine strukturelle Lösung für bidirektionale Generalisierung sein. Die Verbindung ist interessant, aber nicht belegt.
Warum dies für Finanz-KI wichtig ist
Dies ist eines der am direktesten umsetzbaren Paper für die Agenda von Bean Labs. Ein Beancount-Agent kann nicht jedes Mal neu trainiert werden, wenn eine Transaktion hinzugefügt wird, sich eine Regel ändert oder ein neues Geschäftsjahr beginnt. Das Paper unterstützt nachdrücklich die Strategie, den Ledger als Retrieval-Korpus und nicht als Fine-Tuning-Material zu behandeln: Die faktischen Gewinne durch Fine-Tuning sind bescheiden, das Risiko des katastrophalen Vergessens ist real und die operativen Kosten des erneuten Trainings übersteigen bei weitem die Kosten der Neuindexierung.
Der Befund zu Paraphrasen deutet auf etwas Nützliches hin, selbst wenn wir Fine-Tuning beiseitelassen. Wenn eine domänenspezifische Buchhaltungsregel tief im Verhalten eines Modells verankert werden muss – also nicht nur abgerufen, sondern zuverlässig befolgt werden soll –, ist es wahrscheinlich robuster, sie in mehreren Formen auszudrücken (Constraint, Validierungsprüfung, ausgearbeitetes Beispiel einer Verletzung), als durch eine einzige kanonische Aussage. So funktioniert die Buchhaltungsausbildung, und es deckt sich damit, wie Studien zur Regeleinhaltung in der Constitutional AI die Regelabdeckung framen.
Das Ergebnis zum katastrophalen Vergessen ist die deutlichste praktische Warnung: Unüberwachte Domänenanpassung auf Ledger-Daten kann die allgemeinen Denkfähigkeiten verschlechtern, die für die Anomalieerkennung und die Beantwortung von Abfragen erforderlich sind. Retrieval umgeht dies auf Kosten eines Index und eines Retrievers – ein Tausch, der sich lohnt.
Was man als Nächstes lesen sollte
- The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) – das Paper, auf das sich Ovadia et al. beziehen; es erklärt, warum LLMs an bidirektionalen Implikationen aus Trainingsdaten scheitern, und steckt die fundamentalen Grenzen von Fine-Tuning für die Fakteninjektion ab.
- RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) – ein Rezept für überwachtes Fine-Tuning, das darauf ausgelegt ist, mit RAG zusammenzuarbeiten, anstatt es zu ersetzen; eine wettbewerbsfähigere Fine-Tuning-Baseline als der hier getestete unüberwachte Ansatz.
- Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) – erweitert den Vergleich auf Wissen über Long-Tail-Entitäten, wo RAG erneut dominiert, und schlägt Stimulus RAG als leichtgewichtige Alternative vor.
