StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points
La critique récurrente contre le RAG en production est que la récupération est un instrument grossier lorsque les faits pertinents sont dispersés dans des dizaines de documents aux formats incompatibles. StructRAG (Li et al., ICLR 2025) s'attaque directement à ce problème en convertissant le texte récupéré en une structure adaptée à la tâche — tableau, graphe, catalogue, algorithme ou simple fragment — avant de raisonner dessus. Il s'inspire d'une théorie cognitive affirmant que les humains remodèlent naturellement les informations brutes en représentations structurées lorsqu'ils s'attaquent à des tâches de raisonnement complexes. Que ce cadre soit davantage une métaphore qu'un mécanisme, les chiffres empiriques méritent d'être examinés attentivement.
L'article
StructRAG propose un pipeline au moment de l'inférence composé de trois modules. Premièrement, un routeur de structure hybride (Qwen2-7B-Instruct, affiné avec DPO sur 900 paires de préférences synthétiques) prédit lequel des cinq types de structure correspond le mieux à la question posée et à ses documents. Deuxièmement, un structurateur de connaissances dispersées (Qwen2-72B-Instruct) réécrit les fragments récupérés dans le format choisi. Troisièmement, un utilisateur de connaissances structurées décompose la question en sous-questions, récupère les fragments structurés pertinents et génère la réponse finale. Les cinq types de structures sont : le tableau (comparaisons statistiques), le graphe (chaînes multi-sauts, encodées sous forme de triplets tête-relation-queue), l'algorithme (tâches de planification, écrites en pseudo-code), le catalogue (résumé, numérotation hiérarchique) et le fragment (saut unique simple, le repli par défaut du RAG).
Les auteurs évaluent principalement sur le benchmark Loong (EMNLP 2024 Oral), un benchmark de QA multi-documents couvrant des rapports financiers, des affaires juridiques et des articles académiques, avec des entrées allant de 10 000 à 250 000 jetons, couvrant quatre types de tâches : Localisation de points clés, Comparaison, Regroupement et Chaîne de raisonnement.