Aller au contenu principal

Self-RAG : Récupération adaptive et autocritique pour les LLM

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

Le RAG standard effectue une récupération à chaque fois, que cela aide ou non. Self-RAG par Asai et al. (ICLR 2024 Oral) pose une question différente : et si le modèle décidait lui-même quand effectuer une recherche, puis évaluait le résultat ? Il s'avère que cela importe beaucoup, et le mécanisme est suffisamment clair pour mériter une étude approfondie.

L'article

2026-05-09-self-rag-learning-to-retrieve-generate-critique-self-reflection

Le grief principal contre la Génération Augmentée par Récupération (RAG) classique est son caractère aveugle : elle récupère un nombre fixe de passages pour chaque entrée, les ajoute au début et génère la réponse. Cela fonctionne assez bien lorsque la récupération aide, mais cela nuit activement lorsque les passages sont non pertinents ou lorsque le modèle possède déjà la réponse dans ses poids. L'article introduit la Génération Augmentée par Récupération Auto-Réfléchie (Self-RAG), dont les auteurs sont Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil et Hannaneh Hajishirzi (Université de Washington et IBM Research).

Le mécanisme clé est un ensemble de quatre jetons de réflexion spéciaux intégrés au vocabulaire du modèle lors de l'entraînement. Retrieve décide s'il faut appeler le récupérateur. IsRel (pertinence) évalue si un passage récupéré contient réellement des informations utiles pour la requête. IsSup (support) vérifie si l'affirmation générée est totalement, partiellement ou pas du tout étayée par le passage. IsUse (utilité) note la qualité globale de la réponse de 1 à 5. Le modèle apprend à émettre ces jetons en ligne avec sa sortie normale — il critique ainsi sa propre récupération et génération en un seul passage.

L'entraînement se déroule en deux étapes : d'abord, un modèle critique (LLaMA 2, 7B affiné) est entraîné sur environ 4 000 à 20 000 exemples étiquetés par type de jeton, atteignant plus de 90 % d'accord avec les prédictions de GPT-4. Ce critique annote ensuite hors ligne un corpus de 150 000 exemples d'instructions-sorties, et le générateur est entraîné sur ces données annotées avec les jetons de réflexion traités comme du vocabulaire ordinaire. Aucun apprentissage par renforcement n'est requis.

Idées clés

  • Les quatre jetons de réflexion (Retrieve, IsRel, IsSup, IsUse) donnent au modèle un dialogue interne structuré sur la fiabilité des preuves — pas seulement une décision binaire de récupération/non-récupération.
  • Self-RAG 13B atteint 55,8 % sur PopQA, 69,3 % sur TriviaQA, 74,5 % sur PubHealth, 73,1 % sur ARC-Challenge, et un FactScore de biographie de 80,2 — surpassant ChatGPT et Llama2-chat avec RAG sur chacun d'eux.
  • Les ablations sur PopQA montrent que la suppression de la récupération au moment du test coûte 20,8 points de pourcentage, tandis que la suppression du seul critique ne coûte que 2,9 pp — le récupérateur est le pilier ; la critique ajoute une calibration par-dessus.
  • Lors de l'inférence, les poids des jetons de critique peuvent être ajustés pour arbitrer entre la précision des citations et la fluidité sans réentraînement. Cela rend le comportement du modèle configurable pour différentes applications en aval.
  • Le comité de programme de l'ICLR 2024 a accordé à Self-RAG le statut de présentation orale (top 1 %), ce qui reflète une véritable reconnaissance par les pairs de la contribution technique.

Ce qui tient la route — et ce qui ne la tient pas

Les résultats d'ablation sont convaincants. L'écart entre "toujours récupérer" et "ne jamais récupérer" est important (20,8 pp) ; le modèle a clairement appris à distinguer une récupération utile du bruit. Les jetons IsRel et IsSup ajoutent une valeur mesurable par rapport à la seule récupération adaptative. C'est un résultat significatif, pas seulement une reformulation.

Ce dont je suis moins convaincu, c'est l'allégation de généralisation. Les cinq tâches d'évaluation (PopQA, TriviaQA, PubHealth, ARC-Challenge, ASQA) sont des questions-réponses courtes ou à choix multiples — le cadre exact où un seul passage récupéré peut fournir un signal décisif. La génération de forme longue sur des contextes multi-documents, là où se situent les tâches financières, fait l'objet de moins d'examen. Le FactScore de biographie (80,2) est l'approximation la plus proche, mais les biographies sont relativement bien structurées par rapport à un grand livre de dépenses s'étendant sur plusieurs années.

Il y a aussi un bémol concernant la reproductibilité : les étiquettes d'entraînement du modèle critique proviennent de GPT-4. Cela rend la qualité des étiquettes dépendante d'un système propriétaire et introduit des coûts d'API qui ne sont pas signalés. CRAG (arXiv:2401.15884) a montré plus tard qu'un évaluateur de récupération de 0,77B — bien plus léger que le critique de 7B de Self-RAG — pouvait corriger la qualité de la récupération et gagner 19,0 pp par rapport au RAG standard sur PopQA, ce qui suggère que le lourd critique affiné n'est peut-être pas nécessaire. C'est un défi significatif pour la conception, même si l'idée centrale de la récupération sélective reste valable.

Enfin, la référence de comparaison compte. Battre ChatGPT (probablement GPT-3.5-turbo, fin 2023) et Llama2-chat est une barre raisonnable pour un modèle ouvert de 13B, mais les modèles de pointe ont considérablement évolué depuis. La question de savoir si la récupération adaptative de Self-RAG battrait un GPT-4o bien sollicité avec une configuration simple de "récupération systématique" sur ces mêmes références n'est pas abordée.

Pourquoi cela compte pour l'IA financière

Les agents financiers utilisant des journaux Beancount sont confrontés exactement au problème de discrimination de récupération que Self-RAG traite. Lorsqu'un utilisateur demande "quel est mon revenu net ce mois-ci ?", l'agent peut le calculer à partir de son contexte chargé — la récupération pourrait simplement ajouter du bruit. Lorsque ce même utilisateur demande "ai-je enregistré la facture du prestataire du troisième trimestre ?", l'agent doit scanner potentiellement des années d'écritures. Le "toujours récupérer" gaspille du contexte et risque d'injecter de vieilles transactions non pertinentes ; le "ne jamais récupérer" rate la recherche.

Les jetons IsRel et IsSup correspondent clairement à la logique de validation de grand livre. IsRel : l'écriture de transaction récupérée est-elle réellement liée à la requête ? IsSup : le contexte récupéré soutient-il réellement le chiffre du solde généré, ou le nombre est-il une hallucination ? Le score d'utilité (1–5) pourrait informer la confiance lors de l'écriture : ne valider une proposition d'écriture de journal que lorsque le modèle donne une note de 4 ou 5 à son propre raisonnement, et signaler le reste pour une révision humaine.

La question de la reproductibilité importe ici aussi. Pour un agent comptable de production, dépendre de GPT-4 pour générer des étiquettes d'entraînement est une contrainte opérationnelle. Si un évaluateur plus léger (à la CRAG) peut parvenir à une récupération sélective comparable, c'est la voie la plus facile à déployer. Les principes de conception de Self-RAG — décider avant de récupérer, critiquer après avoir récupéré — restent précieux même si la recette spécifique d'entraînement des jetons est remplacée.

Que lire ensuite

  • CRAG: Corrective Retrieval Augmented Generation (arXiv:2401.15884) — s'appuie sur l'idée de récupération adaptative de Self-RAG avec un évaluateur plus léger et une solution de repli par recherche web lorsque la récupération locale échoue ; mérite une comparaison directe avec Self-RAG sur des références communes.
  • RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation (arXiv:2404.00610) — se concentre spécifiquement sur la décomposition des requêtes pour les questions-réponses complexes multi-sauts, le scénario que Self-RAG gère le moins gracieusement.
  • FRAMES: Retrieval and Augmentation for Multi-Hop Evaluation (arXiv:2409.12941) — référence de Google DeepMind pour le RAG multi-documents nécessitant d'enchaîner plusieurs faits récupérés ; un test naturel plus difficile pour les modèles de style Self-RAG.