Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs
La pregunta a la que vuelvo constantemente al diseñar agentes de Beancount es la siguiente: cuando los datos de su libro mayor cambian, ¿debería ajustar el modelo con los nuevos hechos o construir un sistema de recuperación? El artículo de Ovadia et al. "Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs" (EMNLP 2024, arXiv:2312.05934) ofrece la respuesta empírica más clara que he encontrado, y va directamente en contra del bombo publicitario del ajuste fino.
El artículo
Oded Ovadia, Menachem Brief, Moshik Mishaeli y Oren Elisha comparan dos enfoques para actualizar lo que sabe un LLM: el preentrenamiento continuo no supervisado (el modelo lee texto nuevo y continúa la predicción del siguiente token) y RAG (el modelo recibe pasajes recuperados en el momento de la consulta). Prueban tres modelos de 7 mil millones de parámetros (Llama2-7B, Mistral-7B y Orca2-7B) en dos dominios de conocimiento: un subconjunto de MMLU que cubre anatomía, astronomía, biología universitaria y química (conocimientos que los modelos probablemente vieron en el preentrenamiento), y un conjunto de datos personalizado de eventos actuales con 910 preguntas de opción múltiple sobre eventos de EE. UU. de agosto a noviembre de 2023, explícitamente posteriores a las fechas de corte de entrenamiento de los modelos. El pipeline RAG utiliza incrustaciones BGE-large-en sobre un índice FAISS. El ajuste fino ejecuta un entrenamiento de LM causal no supervisado en fragmentos de Wikipedia de 256 tokens en 4 GPU A100.
Ideas clave
- RAG domina en conocimiento genuinamente nuevo: En la tarea de eventos actuales, RAG por sí solo obtiene una puntuación de 0,875 (Mistral) y 0,876 (Orca) frente a los valores base de los modelos de 0,353–0,481. El ajuste fino no supervisado con parafraseo alcanza solo 0,504–0,511; RAG duplicó con creces la ganancia de precisión que el ajuste fino logró en hechos posteriores al corte de entrenamiento.
- El techo del ajuste fino es el conocimiento existente, no el nuevo: Incluso en temas de MMLU que los modelos ya habían encontrado durante el preentrenamiento, el ajuste fino produce solo ganancias modestas; RAG sigue superando en los cinco temas.
- Las paráfrasis ayudan, pero lentamente: Las paráfrasis generadas por GPT-4 de cada fragmento de entrenamiento mejoran los resultados del ajuste fino de forma monótona (10 versiones superan consistentemente a 1) y los autores sugieren que esto puede abordar parcialmente la Maldición de la Inversión (Reversal Curse, Berglund et al., arXiv:2309.12288), donde los modelos entrenados en "A es B" no logran generalizar a "B es A". Tienen cuidado de señalar que la conexión amerita más investigación.
- El olvido catastrófico es un coste real: Llama2 sin aumento de datos mostró una degradación significativa de la precisión en tareas aprendidas previamente después del ajuste fino con eventos actuales. RAG evita esto por completo.
- Combinar ambos no ayuda de forma fiable: Ajuste fino + RAG alcanzó 0,520–0,830 en la condición de eventos actuales, a veces por debajo de RAG solo. El ajuste fino parece interferir con la capacidad del modelo para utilizar el contexto recuperado.
Lo que se sostiene y lo que no
El hallazgo central es creíble. Un conjunto de datos de 910 preguntas con un corte temporal claro es suficiente para confiar en la dirección del resultado: el ajuste fino no supervisado es un vehículo deficiente para inyectar hechos genuinamente nuevos. El diseño de la evaluación es limpio y los tamaños del efecto son grandes.
Los puntos ciegos también son reales. Los tres modelos probados son de 7 mil millones de parámetros; no sabemos si la brecha del ajuste fino se reduce o crece con modelos a escala de frontera. Más importante aún, el método de ajuste fino es estrictamente una predicción de siguiente token no supervisada. Sin LoRA, sin ajuste de instrucciones, sin pares de preguntas y respuestas supervisados. RAFT (Zhang et al., arXiv:2403.10131) y enfoques similares de adaptación de dominio supervisada son líneas base más competitivas con las que este artículo no se involucra. La conclusión "el ajuste fino pierde" es en realidad "el ajuste fino no supervisado pierde", que es una afirmación más estrecha.
La implementación de RAG también es modesta: recuperación densa básica con FAISS y BGE-large-en, sin reclasificación (reranking) ni expansión de consultas. Una nota en el apéndice reconoce que la K óptima varía sustancialmente entre modelos y tareas; elegir el número incorrecto de pasajes recuperados perjudica significativamente el rendimiento. En producción, el ajuste de K por dominio es un coste operativo no trivial.
Una afirmación que cuestionaría: los autores enmarcan el hallazgo de que el parafraseo ayuda al ajuste fino como algo que potencialmente mejora la Maldición de la Inversión, pero su evidencia es indirecta. La mejora monótona con el recuento de paráfrasis podría reflejar simplemente los beneficios estándar del aumento de datos en lugar de cualquier solución estructural a la generalización bidireccional. La conexión es interesante pero no está establecida.
Por qué esto es importante para la IA financiera
Este es uno de los artículos más directamente aplicables para la agenda de Bean Labs. Un agente de Beancount no puede ser reentrenado cada vez que se añade una transacción, cambia una regla o comienza un nuevo año fiscal. El artículo respalda firmemente el tratamiento del libro mayor como un corpus de recuperación en lugar de material de ajuste fino: las ganancias factuales del ajuste fino son modestas, el riesgo de olvido catastrófico es real y el coste operativo del reentrenamiento supera con creces el coste de la indexación.
El hallazgo sobre el parafraseo apunta a algo útil incluso si dejamos de lado el ajuste fino. Si una regla contable específica de un dominio necesita ser integrada profundamente en el comportamiento de un modelo (no solo recuperada, sino seguida de manera confiable), expresarla en múltiples formas (restricción, verificación de validación, ejemplo práctico de infracción) es probablemente más robusto que una sola declaración canónica. Así es como funciona la educación contable, y es consistente con cómo los estudios de seguimiento de reglas de la IA Constitucional enmarcan la cobertura de las reglas.
El resultado del olvido catastrófico es la advertencia práctica más clara: la adaptación de dominio no supervisada en los datos del libro mayor puede degradar las capacidades de razonamiento general necesarias para la detección de anomalías y la respuesta a consultas. La recuperación evita esto a cambio del coste de un índice y un recuperador; un intercambio que vale la pena hacer.
Qué leer a continuación
- The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024): el artículo que Ovadia et al. invocan; explica por qué los LLMs fallan en la implicación bidireccional a partir de los datos de entrenamiento y enmarca los límites fundamentales del ajuste fino para la inyección factual.
- RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131): una receta de ajuste fino supervisado diseñada para trabajar con RAG en lugar de reemplazarlo; una línea base de ajuste fino más competitiva que el enfoque no supervisado probado aquí.
- Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432): extiende la comparación al conocimiento de entidades de cola larga, donde RAG domina nuevamente, y propone Stimulus RAG como una alternativa ligera.
