Aller au contenu principal

Fine-Tuning vs RAG : Pourquoi la récupération l'emporte pour l'injection de nouvelles connaissances dans les LLM

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

La question qui revient sans cesse lors de la conception d'agents Beancount est la suivante : lorsque les données de votre grand livre changent, faut-il ajuster le modèle (fine-tuning) sur les nouveaux faits ou construire un système de récupération ? L'article d'Ovadia et al., « Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs » (EMNLP 2024, arXiv:2312.05934), apporte la réponse empirique la plus claire que j'ai trouvée, et elle va radicalement à l'encontre de l'engouement actuel pour l'ajustement fin.

L'article

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Oded Ovadia, Menachem Brief, Moshik Mishaeli et Oren Elisha comparent deux approches pour mettre à jour les connaissances d'un LLM : le pré-entraînement continu non supervisé (le modèle lit un nouveau texte et poursuit la prédiction du prochain jeton) et le RAG (le modèle reçoit des passages récupérés au moment de la requête). Ils testent trois modèles de 7 milliards de paramètres — Llama2-7B, Mistral-7B et Orca2-7B — dans deux domaines de connaissances : un sous-ensemble de MMLU couvrant l'anatomie, l'astronomie, la biologie universitaire et la chimie (des connaissances que les modèles ont probablement vues lors du pré-entraînement), et un ensemble de données personnalisé sur l'actualité composé de 910 questions à choix multiples sur des événements américains d'août à novembre 2023, explicitement postérieurs aux dates de coupure d'entraînement des modèles. Le pipeline RAG utilise des embeddings BGE-large-en sur un index FAISS. L'ajustement fin exécute un entraînement causal LM non supervisé sur des blocs Wikipédia de 256 jetons sur 4 GPU A100.

Idées clés

  • Le RAG domine sur les connaissances réellement nouvelles : Pour la tâche sur l'actualité, le RAG seul obtient un score de 0,875 (Mistral) et 0,876 (Orca) contre des références de modèle de base situées entre 0,353 et 0,481. L'ajustement fin non supervisé avec paraphrasage n'atteint que 0,504–0,511 — le RAG a plus que doublé le gain de précision obtenu par l'ajustement fin sur des faits postérieurs à la coupure d'entraînement.
  • Le plafond de l'ajustement fin concerne les connaissances existantes, pas les nouvelles : Même sur les sujets MMLU que les modèles avaient déjà rencontrés lors du pré-entraînement, l'ajustement fin n'apporte que des gains modestes ; le RAG surpasse toujours l'ajustement fin dans les cinq sujets.
  • Les paraphrases aident, mais lentement : Les paraphrases générées par GPT-4 pour chaque bloc d'entraînement améliorent les résultats de l'ajustement fin de manière monotone — 10 versions battent systématiquement 1 seule — et les auteurs suggèrent que cela pourrait partiellement répondre à la « Malédiction de l'Inversion » (Reversal Curse, Berglund et al., arXiv:2309.12288), où les modèles entraînés sur « A est B » ne parviennent pas à généraliser à « B est A ». Ils précisent toutefois que ce lien mérite des recherches approfondies.
  • L'oubli catastrophique est un coût réel : Llama2, sans augmentation de données, a montré une dégradation significative de la précision sur des tâches précédemment apprises après un ajustement fin sur l'actualité. Le RAG évite totalement ce problème.
  • Combiner les deux n'aide pas de manière fiable : L'ajustement fin + RAG a atteint 0,520–0,830 dans les conditions d'actualité, parfois en dessous du RAG seul. L'ajustement fin semble interférer avec la capacité du modèle à utiliser le contexte récupéré.

Ce qui tient la route — et ce qui ne la tient pas

La conclusion principale est crédible. Un ensemble de données de 910 questions avec une coupure temporelle nette suffit pour se fier à la direction du résultat : l'ajustement fin non supervisé est un mauvais vecteur pour injecter des faits réellement nouveaux. La conception de l'évaluation est propre et les tailles d'effet sont importantes.

Les angles morts sont également réels. Les trois modèles testés font 7 milliards de paramètres — nous ne savons pas si l'écart de l'ajustement fin se réduit ou s'accentue avec des modèles de pointe à plus grande échelle. Plus important encore, la méthode d'ajustement fin est strictement une prédiction de jeton suivant non supervisée. Pas de LoRA, pas de réglage par instructions, pas de paires de questions-réponses supervisées. RAFT (Zhang et al., arXiv:2403.10131) et d'autres approches supervisées d'adaptation de domaine sont des références plus compétitives que cet article n'aborde pas. La conclusion « l'ajustement fin perd » est en réalité « l'ajustement fin non supervisé perd », ce qui est une affirmation plus étroite.

L'implémentation du RAG est également modeste : récupération dense basique avec FAISS et BGE-large-en, sans reclassement (reranking) ni expansion de requête. Une note en annexe reconnaît que le K optimal varie considérablement selon les modèles et les tâches — le choix d'un mauvais nombre de passages récupérés nuit considérablement aux performances. En production, le réglage de K par domaine représente un coût opérationnel non négligeable.

Une affirmation que je nuancerais : les auteurs présentent la découverte selon laquelle le paraphrasage aide l'ajustement fin comme une solution potentielle à la Malédiction de l'Inversion, mais leurs preuves sont indirectes. L'amélioration monotone avec le nombre de paraphrases pourrait simplement refléter les avantages classiques de l'augmentation de données plutôt qu'une correction structurelle de la généralisation bidirectionnelle. Le lien est intéressant mais non établi.

Pourquoi cela compte pour l'IA financière

C'est l'un des articles les plus directement exploitables pour les objectifs de Bean Labs. Un agent Beancount ne peut pas être réentraîné chaque fois qu'une transaction est ajoutée, qu'une règle change ou qu'un nouvel exercice fiscal commence. L'article soutient fermement l'idée de traiter le grand livre comme un corpus de récupération plutôt que comme un matériau d'ajustement fin : les gains factuels de l'ajustement fin sont modestes, le risque d'oubli catastrophique est réel, et le coût opérationnel du réentraînement dépasse de loin le coût du ré-indexage.

La découverte sur le paraphrasage suggère quelque chose d'utile, même si l'on met de côté l'ajustement fin. Si une règle comptable spécifique à un domaine doit être profondément ancrée dans le comportement d'un modèle — pas seulement récupérée, mais suivie de manière fiable — l'exprimer sous plusieurs formes (contrainte, vérification de validation, exemple concret de violation) est probablement plus robuste qu'une seule déclaration canonique. C'est ainsi que fonctionne l'enseignement de la comptabilité, et cela concorde avec la manière dont les études sur le respect des règles de l'IA Constitutionnelle cadrent la couverture des règles.

Le résultat sur l'oubli catastrophique est l'avertissement pratique le plus clair : une adaptation de domaine non supervisée sur les données du grand livre peut dégrader les capacités de raisonnement général nécessaires à la détection d'anomalies et à la réponse aux requêtes. La récupération contourne ce problème au prix d'un index et d'un moteur de recherche — un compromis qui en vaut la peine.

Lectures complémentaires

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — l'article invoqué par Ovadia et al. ; explique pourquoi les LLM échouent dans l'implication bidirectionnelle à partir des données d'entraînement et définit les limites fondamentales de l'ajustement fin pour l'injection factuelle.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — une recette d'ajustement fin supervisé conçue pour fonctionner avec le RAG plutôt que de le remplacer ; une référence d'ajustement fin plus compétitive que l'approche non supervisée testée ici.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — étend la comparaison aux connaissances d'entités de la « longue traîne », où le RAG domine à nouveau, et propose le « Stimulus RAG » comme alternative légère.