Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM
La pregunta a la qual sempre torno quan dissenyo agents de Beancount és aquesta: quan les dades del vostre llibre major canvien, hauríeu d'ajustar el model amb els nous fets o construir un sistema de recuperació? "Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs" d'Ovadia et al. (EMNLP 2024, arXiv:2312.05934) ofereix la resposta empírica més clara que he trobat, i va totalment en contra de l'exaltació de l'ajustament fi.
L'article
Oded Ovadia, Menachem Brief, Moshik Mishaeli i Oren Elisha comparen dos enfocaments per actualitzar el que sap un LLM: el preentrenament continu no supervisat (el model llegeix text nou i continua amb la predicció del següent token) i el RAG (el model rep fragments recuperats en el moment de la consulta). Proven tres models de 7.000 milions de paràmetres —Llama2-7B, Mistral-7B i Orca2-7B— en dos dominis de coneixement: un subconjunt de MMLU que cobreix anatomia, astronomia, biologia universitària i química (coneixements que els models probablement van veure en el preentrenament), i un conjunt de dades personalitzat d'actualitat amb 910 preguntes d'opció múltiple sobre esdeveniments dels Estats Units d'agost a novembre de 2023, explícitament posteriors a les dates de tall de l'entrenament dels models. El pipeline de RAG utilitza embeddings BGE-large-en sobre un índex FAISS. L'ajustament fi executa un entrenament LM causal no supervisat en fragments de Wikipedia de 256 tokens en 4 GPU A100.
Idees clau
- El RAG domina en el coneixement genuïnament nou: En la tasca d'esdeveniments actuals, només el RAG obté una puntuació de 0,875 (Mistral) i 0,876 (Orca) enfront de les línies base dels models base de 0,353–0,481. L'ajustament fi no supervisat amb parafraseig només arriba a 0,504–0,511; el RAG va més que duplicar el guany de precisió que l'ajustament fi va aconseguir en fets posteriors a la data de tall de l'entrenament.
- El sostre de l'ajustament fi és el coneixement existent, no el nou: Fins i tot en temes de MMLU que els models ja havien trobat durant el preentrenament, l'ajustament fi només produeix guanys modestos; el RAG encara supera el rendiment en els cinc temes.
- Les paràfrasis ajuden, però lentament: Les paràfrasis generades per GPT-4 de cada fragment d'entrenament milloren els resultats de l'ajustament fi de manera monotònica —10 versions superen constantment a 1— i els autors suggereixen que això podria abordar parcialment la Maledicció de la Inversió (Berglund et al., arXiv:2309.12288), on els models entrenats en "A és B" no aconsegueixen generalitzar a "B és A". Adverteixen que la connexió requereix més investigació.
- L'oblit catastròfic és un cost real: Llama2 sense augment de dades va mostrar una degradació significativa de la precisió en tasques apreses anteriorment després de l'ajustament fi amb esdeveniments actuals. El RAG evita això completament.
- Combinar ambdós no ajuda de manera fiable: L'ajustament fi + RAG va arribar a 0,520–0,830 en la condició d'esdeveniments actuals, de vegades per sota del RAG sol. L'ajustament fi sembla interferir amb la capacitat del model per utilitzar el context recuperat.
Què se sosté i què no
La troballa principal és creïble. Un conjunt de dades de 910 preguntes amb una data de tall temporal neta és suficient per confiar en la direcció del resultat: l'ajustament fi no supervisat és un vehicle deficient per injectar fets genuïnament nous. El disseny de l'avaluació és net i les mides de l'efecte són grans.
Els punts cecs també són reals. Tots tres models provats són de 7.000 milions de paràmetres; no sabem si la bretxa de l'ajustament fi es redueix o creix amb models a escala de frontera. Més important encara, el mètode d'ajustament fi és estrictament la predicció del següent token no supervisada. Sense LoRA, sense ajustament per instruccions, sense parells de preguntes i respostes supervisats. RAFT (Zhang et al., arXiv:2403.10131) i enfocaments similars d'adaptació de domini supervisats són línies base més competitives que aquest article no aborda. La conclusió "l'ajustament fi perd" és en realitat "l'ajustament fi no supervisat perd", que és una afirmació més limitada.
La implementació del RAG també és modesta: recuperació densa bàsica amb FAISS i BGE-large-en, sense reordenació ni expansió de consultes. Una nota de l'apèndix reconeix que el valor K òptim varia substancialment entre models i tasques; triar el nombre incorrecte de fragments recuperats perjudica significativament el rendiment. En producció, l'ajustament de K per domini és un cost operatiu no menyspreable.
Una afirmació que qüestionaria: els autors emmarquen la troballa que el parafraseig ajuda a l'ajustament fi com una possible millora de la Maledicció de la Inversió, però la seva evidència és indirecta. La millora monotònica amb el recompte de paràfrasis podria reflectir simplement els beneficis estàndard de l'augment de dades en lloc de qualsevol solució estructural a la generalització bidireccional. La connexió és interessant però no està establerta.
Per què això és important per a la IA financera
Aquest és un dels articles amb aplicació més directa per a l'agenda de Bean Labs. Un agent de Beancount no es pot tornar a entrenar cada vegada que s'afegeix una transacció, canvia una regla o comença un nou exercici fiscal. L'article dona suport fermament a tractar el llibre major com un corpus de recuperació en lloc de material d'ajustament fi: els guanys fàctics de l'ajustament fi són modestos, el risc d'oblit catastròfic és real i el cost operatiu de tornar a entrenar supera amb escreix el cost de tornar a indexar.
La troballa de les paràfrasis apunta a quelcom útil fins i tot si deixem de banda l'ajustament fi. Si una regla comptable específica del domini s'ha d'incrustar profundament en el comportament d'un model —no només recuperar-la sinó seguir-la de manera fiable— expressar-la en múltiples formes (restricció, verificació de validació, exemple pràctic de violació) és probablement més robust que una única declaració canònica. Així és com funciona l'educació comptable, i és coherent amb com els estudis de seguiment de regles de la IA Constitucional emmarquen la cobertura de les regles.
El resultat de l'oblit catastròfic és l'advertència pràctica més clara: l'adaptació de domini no supervisada sobre les dades del llibre major pot degradar les capacitats de raonament general necessàries per a la detecció d'anomalies i la resposta a consultes. La recuperació ho evita a canvi d'un índex i un recuperador, un intercanvi que val la pena fer.
Què llegir a continuació
- The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — l'article que invoquen Ovadia et al.; explica per què els LLM fallen en la implicació bidireccional a partir de les dades d'entrenament i emmarca els límits fonamentals de l'ajustament fi per a la injecció de fets.
- RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — una recepta d'ajustament fi supervisat dissenyada per treballar amb el RAG en lloc de substituir-lo; una línia base d'ajustament fi més competitiva que l'enfocament no supervisat provat aquí.
- Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — amplia la comparació al coneixement d'entitats de cua llarga (long-tail), on el RAG torna a dominar, i proposa Stimulus RAG com una alternativa lleugera.
