Aller au contenu principal

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

La critique récurrente contre le RAG en production est que la récupération est un instrument grossier lorsque les faits pertinents sont dispersés dans des dizaines de documents aux formats incompatibles. StructRAG (Li et al., ICLR 2025) s'attaque directement à ce problème en convertissant le texte récupéré en une structure adaptée à la tâche — tableau, graphe, catalogue, algorithme ou simple fragment — avant de raisonner dessus. Il s'inspire d'une théorie cognitive affirmant que les humains remodèlent naturellement les informations brutes en représentations structurées lorsqu'ils s'attaquent à des tâches de raisonnement complexes. Que ce cadre soit davantage une métaphore qu'un mécanisme, les chiffres empiriques méritent d'être examinés attentivement.

L'article

2026-06-01-structrag-inference-time-hybrid-information-structurization

StructRAG propose un pipeline au moment de l'inférence composé de trois modules. Premièrement, un routeur de structure hybride (Qwen2-7B-Instruct, affiné avec DPO sur 900 paires de préférences synthétiques) prédit lequel des cinq types de structure correspond le mieux à la question posée et à ses documents. Deuxièmement, un structurateur de connaissances dispersées (Qwen2-72B-Instruct) réécrit les fragments récupérés dans le format choisi. Troisièmement, un utilisateur de connaissances structurées décompose la question en sous-questions, récupère les fragments structurés pertinents et génère la réponse finale. Les cinq types de structures sont : le tableau (comparaisons statistiques), le graphe (chaînes multi-sauts, encodées sous forme de triplets tête-relation-queue), l'algorithme (tâches de planification, écrites en pseudo-code), le catalogue (résumé, numérotation hiérarchique) et le fragment (saut unique simple, le repli par défaut du RAG).

Les auteurs évaluent principalement sur le benchmark Loong (EMNLP 2024 Oral), un benchmark de QA multi-documents couvrant des rapports financiers, des affaires juridiques et des articles académiques, avec des entrées allant de 10 000 à 250 000 jetons, couvrant quatre types de tâches : Localisation de points clés, Comparaison, Regroupement et Chaîne de raisonnement.

Idées clés

  • Le routeur entraîné par DPO atteint une précision de 94,38 % dans la sélection du type de structure, contre 50,04 % en zero-shot avec Qwen2-72B-Instruct — la décision de routage est le composant le plus critique. L'ablation du routeur fait chuter le score global du LLM de 60,38 à 45,33.
  • Au niveau de longueur de document le plus difficile (200k à 250k jetons), StructRAG obtient un score de 51,42 contre 28,92 pour le Long-Context et 29,29 pour le RAG — un écart d'environ 22 points qui s'accentue à mesure que le contexte augmente. L'approche standard consistant à "tout mettre dedans" se détériore brusquement alors que StructRAG se dégrade plus progressivement.
  • GraphRAG, bien qu'imposant également une structure, obtient un score LLM global de 40,82 sur Loong contre 69,43 pour StructRAG, et prend 217,1 minutes par requête contre 9,7 minutes pour StructRAG. La construction préalable d'un graphe de connaissances global est à la fois plus lente et moins précise que le choix du bon format à la demande.
  • Sur Podcast Transcripts (résumé ouvert), StructRAG atteint un taux de victoire par paires de 95,75 % par rapport au Long-Context, ce qui suggère que la synthèse structurée surpasse les approches à contexte complet, même sur des sources moins structurées.
  • Les scores de correspondance exacte (EM) sont systématiquement inférieurs aux scores jugés par LLM car la structuration modifie la formulation de surface (par exemple, "1 308 463 $" devient "1308463" dans une cellule de tableau), créant un problème systématique de discordance de jetons qui pénalise l'évaluation automatisée.

Ce qui tient la route — et ce qui ne tient pas

Le résultat de base est bien réel et l'analyse d'ablation est limpide : le routage importe le plus, suivi de la structuration, puis de l'utilisation. L'amélioration sur les documents longs est la conclusion la plus solide — 22 points à 200 000 jetons n'est pas un bruit statistique.

Cela dit, j'ai trois réserves. Premièrement, la couverture des benchmarks est limitée. StructRAG ne rapporte que Loong et Podcast Transcripts. Les benchmarks multi-sauts standards (HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) sont notablement absents, ce qui rend impossible l'évaluation de la performance de StructRAG par rapport au vaste corpus de recherches antérieures sur la récupération sur ces segments établis. Les relecteurs de l'ICLR l'ont probablement souligné ; l'article n'offre aucune réponse directe dans la version publiée.

Deuxièmement, le modèle d'évaluation est GPT-4. L'évaluation par "LLM-as-judge" est sensible au biais de longueur et aux préférences stylistiques qui peuvent favoriser les sorties issues du même processus de structuration, surtout quand le juge a été entraîné sur des textes structurés similaires. La métrique EM est un correctif, mais les auteurs la présentent comme une limitation de la métrique plutôt que comme la preuve d'un problème avec la méthode.

Troisièmement, StructRAG est testé avec une architecture de base imposante (Qwen2-72B-Instruct pour le structurateur et l'utilisateur). Il n'est pas clair quelle part du gain provient du routage par rapport au simple fait de faire appel à un modèle puissant pour réécrire et résumer. Une ablation par rapport à une ligne de base de réponse directe de même taille permettrait de trancher, mais elle n'est pas présentée.

Pourquoi cela compte pour l'IA financière

Les grands livres Beancount sont l'exemple canonique du problème des "informations dispersées". Une simple question de rapprochement — "pourquoi mes actifs nets ont-ils chuté au troisième trimestre ?" — peut nécessiter la lecture d'écritures de transactions provenant de trois comptes, le croisement avec un rapport de bilan et le suivi d'une chaîne de correction en plusieurs étapes. Celles-ci correspondent presque point par point aux types de structures de StructRAG : des tableaux pour les comparaisons de soldes, des graphes pour les chaînes de transactions et des catalogues pour les résumés de période.

L'idée du routage est particulièrement applicable. Un agent Beancount axé sur les requêtes ne devrait pas toujours déverser des fragments de texte dans le contexte ; il devrait d'abord se demander quelle forme la réponse requiert. Une question sur la tendance des soldes nécessite un tableau. Une question "expliquez cette chaîne de remboursement" nécessite un graphe. Une question "résumez les dépenses de cette année" nécessite un catalogue. Intégrer explicitement cette décision de routage — même avec un petit modèle — pourrait réduire considérablement les hallucinations et les erreurs de chiffres qui empoisonnent les tentatives actuelles de QA sur les grands livres.

L'histoire de la latence passant de 217 à 9,7 minutes compte aussi en pratique. Pour un agent Beancount interactif, le coût de pré-indexation de GraphRAG est prohibitif pour des grands livres fréquemment mis à jour ; l'approche de StructRAG au moment de l'inférence convient mieux au cas d'utilisation des grands livres, riches en écritures mais pauvres en requêtes.

Le bémol : le structurateur de StructRAG est un appel à un LLM massif pour chaque requête. Pour les historiques de grands livres étendus, ce coût d'inférence pourrait devenir significatif. Une structuration efficace en jetons — peut-être un modèle affiné plus petit — est une question d'ingénierie ouverte.

Que lire ensuite

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — Microsoft GraphRAG utilise des résumés de communauté pour les requêtes globales ; comprendre où la structuration au moment de l'inférence de StructRAG surpasse la pré-indexation de GraphRAG est le compromis architectural clé à cerner.
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — teste 13 LLM sur des dépôts XBRL avec des tableaux hiérarchiques ; un test direct pour voir si les structures de tableau et de catalogue de StructRAG se transfèrent au format de dépôt structuré auquel ressemblent les grands livres Beancount.
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — évalue les agents sur des décisions financières réelles, ce qui nous permettrait de mesurer si le raisonnement structuré de StructRAG aide réellement la qualité des décisions en aval au-delà de la précision du QA à saut unique.