IRCoT : Entrelacer la recherche d'information avec la chaîne de pensée pour les questions-réponses multi-étapes
J'ai lu des articles sur les variantes du RAG ces derniers temps et je voulais comprendre IRCoT — l'article de Trivedi, Balasubramanian, Khot et Sabharwal (ACL 2023) qui entrelace la recherche d'information avec le raisonnement par chaîne de pensée au lieu d'effectuer une seule passe de recherche initiale. FLARE abordait le même problème en prédisant quand effectuer la recherche ; IRCoT adopte une approche mécanique plus simple et pose une question plus directe : et si chaque phrase d'une chaîne de raisonnement était elle-même une requête de recherche ?
L'article
Les pipelines actuels de type "recherche-puis-lecture" récupèrent les documents une seule fois en fonction de la question d'origine, puis transmettent le tout à un LLM. Pour les questions à saut unique, cela suffit souvent. Pour les questions multi-étapes — « Qui était le compositeur du film dont le réalisateur est né dans la même ville que Bach ? » — les documents pertinents pour la deuxième étape ne sont identifiables qu'après avoir partiellement répondu à la première étape. Les auteurs appellent cela le problème de dépendance des connaissances et soutiennent que la recherche en une seule étape est structurellement incapable de le résoudre.
IRCoT remédie à cela avec une boucle alternée : générer la phrase suivante d'une chaîne de raisonnement, utiliser cette phrase comme une requête BM25 pour récupérer des paragraphes supplémentaires, ajouter les paragraphes récupérés au contexte du prompt, générer la phrase de raisonnement suivante, et répéter. La boucle s'exécute jusqu'à huit étapes, plafonnant le contexte total à quinze paragraphes. Aucun entraînement n'est requis — la méthode repose entièrement sur le prompting et est évaluée en zero-shot sur GPT-3 (code-davinci-002) et en configurations few-shot sur Flan-T5.
Idées clés
- Sur HotpotQA, IRCoT améliore le rappel de recherche de +11,3 points par rapport à la recherche en une étape avec GPT-3, et le score F1 du QA en aval de +7,1 points (60,7 contre 53,6).
- Les gains sont plus importants sur les jeux de données plus difficiles : +22,6 points de rappel et +13,2 points F1 sur 2WikiMultihopQA avec GPT-3.
- Flan-T5-XXL (11B) avec IRCoT obtient +15,3 points F1 sur 2WikiMultihopQA par rapport à la recherche en une étape, ce qui représente le gain par jeu de données le plus important de l'article.
- Flan-T5-XL (3B) avec IRCoT surpasse GPT-3 (175B) avec une recherche en une étape — un écart de paramètres de 58× comblé par la seule stratégie de recherche.
- IRCoT réduit les erreurs factuelles dans la chaîne de pensée générée de 50 % sur HotpotQA et de 40 % sur 2WikiMultihopQA par rapport à la recherche en une étape (annotation manuelle de 40 questions par jeu de données).
- La méthode se généralise hors distribution : l'utilisation de démonstrations d'un jeu de données pour en évaluer un autre montre des gains similaires, confirmant que l'approche ne se contente pas de s'adapter à des modèles intra-distribution.
Ce qui tient la route — et ce qui moins
L'affirmation centrale — que le raisonnement multi-étapes nécessite une recherche multi-étapes — est convaincante et les expériences sont rigoureuses. L'utilisation de quatre benchmarks multi-sauts véritablement difficiles avec différentes structures de connaissances (pont, comparaison, raisonnement discret) étaye largement la thèse. L'ablation montrant qu'un lecteur dédié séparé (plutôt qu'une extraction de réponse directe depuis la phase de chaîne de pensée) aide systématiquement est une conclusion pratique utile.
Ce que je trouve moins satisfaisant : le budget de recherche est fixé à quinze paragraphes quelle que soit la difficulté de la question, et le critère d'arrêt est une limite d'étapes stricte plutôt qu'un signal « j'ai assez d'informations » évalué par le modèle. Le déclenchement basé sur l'incertitude de FLARE est plus rigoureux à cet égard, bien qu'il nécessite des probabilités de jetons calibrées. Le squelette BM25 d'IRCoT est délibérément simple — une recherche dense améliorerait presque certainement les résultats davantage, mais les auteurs ne la testent pas ; ils soutiennent que la simplicité rend la contribution de la chaîne de raisonnement plus claire, ce qui est juste. Le coût computationnel est réel : chaque phrase générée déclenche un appel de recherche, de sorte que la latence augmente linéairement avec la profondeur du raisonnement. Des travaux récents en 2025 (LevelRAG, GlobalRAG) rapportent que ce pipeline rigide « une phrase, une recherche » limite les performances sur les tâches nécessitant une collecte d'informations parallèle plutôt qu'un raisonnement en chaîne séquentiel, GlobalRAG rapportant une amélioration de 6,54 points F1 par rapport à IRCoT sur son benchmark.
L'analyse des hallucinations est également plus mince que je ne l'aurais souhaité : 40 questions par jeu de données est un échantillon trop petit pour des affirmations fortes, et l'« erreur factuelle » est annotée manuellement sans que l'accord inter-annotateurs ne soit rapporté.
Pourquoi c'est important pour l'IA financière
Le problème de dépendance qu'IRCoT résout correspond directement à la manière dont un agent Beancount trace des questions financières multi-étapes. « Quel a été l'effet net de toutes les transactions touchant le compte X entre les dates Y et Z, après avoir pris en compte les conversions de devises notées dans les champs mémo ? » ne peut pas être résolu par une simple recherche vectorielle — vous devez trouver les transactions correspondantes, puis récupérer les taux de change référencés, puis potentiellement récupérer les comptes de contrepartie. Chaque étape de recherche dépend de ce qui a été trouvé à la précédente.
La leçon de conception pratique est la boucle recherche-raisonnement : plutôt que de gaver le contexte avec un grand livre entier sur plusieurs années ou d'effectuer une seule recherche sémantique, un agent de style IRCoT utiliserait chaque phrase de raisonnement intermédiaire — « le débit total vers dépenses:nourriture au premier trimestre était de 1 240 $ » — comme requête pour l'étape de recherche suivante. Cela permet de garder une fenêtre de contexte légère et des preuves récupérées spécifiques à l'objectif. Le constat qu'un modèle de 3B avec une bonne recherche bat un modèle de 175B avec une mauvaise recherche est particulièrement pertinent compte tenu des contraintes de coût liées à l'exécution d'agents sur des grands livres personnels ou de petites entreprises. Bien réussir la recherche peut importer plus que la taille du modèle.
La limite à retenir : la structure rigide d'une recherche par phrase d'IRCoT aura du mal avec les requêtes sur le grand livre qui nécessitent d'agréger simultanément de nombreux flux de preuves parallèles — par exemple, calculer un écart budgétaire sur douze sous-comptes de dépenses à la fois. C'est là qu'une approche privilégiant la planification (comme LATS ou une décomposition de requête structurée) compléterait IRCoT plutôt que de le concurrencer.
Que lire ensuite
- L'article même d'IRCoT cite DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) comme une base de référence clé — utile à lire pour comprendre la stratégie alternative consistant à décomposer les questions en sous-questions avant la recherche plutôt que de les entrelacer.
- LevelRAG (arXiv:2502.18139) s'appuie sur la recherche itérative de type IRCoT en ajoutant un planificateur de haut niveau qui réécrit les requêtes sur plusieurs moteurs de recherche ; une version plus récente du même problème qui s'attaque à la rigidité d'IRCoT.
- « Chain-of-Retrieval Augmented Generation » (CoRAG, arXiv:2501.14342) est une suite de 2025 qui formule la recherche multi-étapes comme une chaîne, rendant la boucle IRCoT explicite et ajoutant un signal d'entraînement — un successeur naturel à lire après cet article.
