StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts
La queixa recurrent contra el RAG en producció és que la recuperació és un instrument poc precís quan els fets rellevants estan dispersos en dotzenes de documents en formats incompatibles. StructRAG (Li et al., ICLR 2025) aborda això directament convertint el text recuperat en una estructura adequada per a la tasca —taula, graf, catàleg, algoritme o fragment simple— abans de raonar-hi. Es basa en una teoria cognitiva: que els humans reformulem de manera natural la informació en brut en representacions estructurades quan ens enfrontem a tasques de raonament complexes. Tant si aquest enfocament és més una metàfora que un mecanisme, val la pena examinar acuradament les dades empíriques.
El document
StructRAG proposa un flux de treball en temps d'inferència amb tres mòduls. Primer, un encaminador d'estructures híbrid (Qwen2-7B-Instruct, ajustat amb DPO sobre 900 parells de preferències sintètiques) prediu quin dels cinc tipus d'estructura s'adapta millor a la pregunta i als seus documents. Segon, un estructurador de coneixement dispers (Qwen2-72B-Instruct) reescriu els fragments recuperats en el format escollit. Tercer, un utilitzador de coneixement estructurat descomposa la pregunta en sub-preguntes, recupera els fragments estructurats rellevants i genera la resposta final. Els cinc tipus d'estructura són: taula (comparacions estadístiques), graf (cadenes de salts múltiples, codificades com a triplets cap–relació–cua), algoritme (tasques de planificació, escrites com a pseudocodi), catàleg (resum, numeració jeràrquica) i fragment o chunk (salt únic simple, el recurs per defecte del RAG).
Els autors l'avaluen principalment al benchmark Loong (EMNLP 2024 Oral), un banc de proves de QA multi-document que abasta informes financers, casos legals i articles acadèmics, amb entrades que van des dels 10.000 als 250.000 tokens, cobrint quatre tipus de tasques: Localització de punts clau, Comparació, Agrupament i Cadena de raonament.
Idees clau
- L'encaminador entrenat amb DPO arriba a una precisió del 94,38% en la selecció del tipus d'estructura en comparació amb el 50,04% de zero-shot amb Qwen2-72B-Instruct; la decisió d'encaminament és el component més crític. Eliminar l'encaminador fa baixar la puntuació general de l'LLM de 60,38 a 45,33.
- En el nivell més difícil de longitud de documents (200K–250K tokens), StructRAG obté una puntuació de 51,42 en comparació amb el 28,92 de context llarg (Long-Context) i el 29,29 de RAG —una bretxa d'uns 22 punts que s'eixampla a mesura que creix el context. L'enfocament estàndard de "posar-ho tot dins" es deteriora bruscament, mentre que StructRAG es degrada més progressivament.
- GraphRAG, malgrat imposar també una estructura, obté una puntuació general de 40,82 a Loong en comparació amb el 69,43 de StructRAG, i triga 217,1 minuts per consulta enfront dels 9,7 minuts de StructRAG. Construir prèviament un graf de coneixement global és alhora més lent i menys precís que triar el format adequat sota demanda.
- En transcripcions de podcasts (resum de final obert), StructRAG aconsegueix una taxa de victòria per parelles del 95,75% sobre el context llarg, cosa que suggereix que la síntesi estructurada supera els enfocaments de context complet fins i tot en material d'origen menys estructurat.
- Les puntuacions de coincidència exacta (EM) queden sistemàticament per darrere de les puntuacions jutjades per LLM perquè l'estructuració canvia la redacció superficial (per exemple, "1.308.463 $" es converteix en "1308463" en una cel·la de taula), creant un problema sistemàtic de disparitat de tokens que penalitza l'avaluació automatitzada.