Salta al contingut principal

StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La queixa recurrent contra el RAG en producció és que la recuperació és un instrument poc precís quan els fets rellevants estan dispersos en dotzenes de documents en formats incompatibles. StructRAG (Li et al., ICLR 2025) aborda això directament convertint el text recuperat en una estructura adequada per a la tasca —taula, graf, catàleg, algoritme o fragment simple— abans de raonar-hi. Es basa en una teoria cognitiva: que els humans reformulem de manera natural la informació en brut en representacions estructurades quan ens enfrontem a tasques de raonament complexes. Tant si aquest enfocament és més una metàfora que un mecanisme, val la pena examinar acuradament les dades empíriques.

El document

2026-06-01-structrag-inference-time-hybrid-information-structurization

StructRAG proposa un flux de treball en temps d'inferència amb tres mòduls. Primer, un encaminador d'estructures híbrid (Qwen2-7B-Instruct, ajustat amb DPO sobre 900 parells de preferències sintètiques) prediu quin dels cinc tipus d'estructura s'adapta millor a la pregunta i als seus documents. Segon, un estructurador de coneixement dispers (Qwen2-72B-Instruct) reescriu els fragments recuperats en el format escollit. Tercer, un utilitzador de coneixement estructurat descomposa la pregunta en sub-preguntes, recupera els fragments estructurats rellevants i genera la resposta final. Els cinc tipus d'estructura són: taula (comparacions estadístiques), graf (cadenes de salts múltiples, codificades com a triplets cap–relació–cua), algoritme (tasques de planificació, escrites com a pseudocodi), catàleg (resum, numeració jeràrquica) i fragment o chunk (salt únic simple, el recurs per defecte del RAG).

Els autors l'avaluen principalment al benchmark Loong (EMNLP 2024 Oral), un banc de proves de QA multi-document que abasta informes financers, casos legals i articles acadèmics, amb entrades que van des dels 10.000 als 250.000 tokens, cobrint quatre tipus de tasques: Localització de punts clau, Comparació, Agrupament i Cadena de raonament.

Idees clau

  • L'encaminador entrenat amb DPO arriba a una precisió del 94,38% en la selecció del tipus d'estructura en comparació amb el 50,04% de zero-shot amb Qwen2-72B-Instruct; la decisió d'encaminament és el component més crític. Eliminar l'encaminador fa baixar la puntuació general de l'LLM de 60,38 a 45,33.
  • En el nivell més difícil de longitud de documents (200K–250K tokens), StructRAG obté una puntuació de 51,42 en comparació amb el 28,92 de context llarg (Long-Context) i el 29,29 de RAG —una bretxa d'uns 22 punts que s'eixampla a mesura que creix el context. L'enfocament estàndard de "posar-ho tot dins" es deteriora bruscament, mentre que StructRAG es degrada més progressivament.
  • GraphRAG, malgrat imposar també una estructura, obté una puntuació general de 40,82 a Loong en comparació amb el 69,43 de StructRAG, i triga 217,1 minuts per consulta enfront dels 9,7 minuts de StructRAG. Construir prèviament un graf de coneixement global és alhora més lent i menys precís que triar el format adequat sota demanda.
  • En transcripcions de podcasts (resum de final obert), StructRAG aconsegueix una taxa de victòria per parelles del 95,75% sobre el context llarg, cosa que suggereix que la síntesi estructurada supera els enfocaments de context complet fins i tot en material d'origen menys estructurat.
  • Les puntuacions de coincidència exacta (EM) queden sistemàticament per darrere de les puntuacions jutjades per LLM perquè l'estructuració canvia la redacció superficial (per exemple, "1.308.463 $" es converteix en "1308463" en una cel·la de taula), creant un problema sistemàtic de disparitat de tokens que penalitza l'avaluació automatitzada.

Què se sosté — i què no

El resultat principal és real i l'estudi d'ablació és clar: l'encaminament és el que més importa, seguit de l'estructuració i, finalment, de la utilització. La millora en documents de gran longitud és la troballa més sòlida —22 punts en 200K tokens no és soroll.

Dit això, tinc tres reserves. Primer, la cobertura del benchmark és limitada. StructRAG només informa de Loong i Podcast Transcripts. Manquen notablement els benchmarks estàndard de salts múltiples (HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ), cosa que fa impossible avaluar com es compara StructRAG amb el gran corpus de recerca prèvia en recuperació sobre aquestes divisions establertes. És de suposar que els revisors de l'ICLR ho van plantejar; el document no ofereix cap resposta directa en la versió publicada.

Segon, el model d'avaluació és GPT-4. La puntuació de LLM com a jutge és susceptible al biaix de longitud i a les preferències estilístiques que poden afavorir les sortides del mateix procés d'estructuració, especialment quan el jutge ha estat entrenat en text estructurat similar. La mètrica EM és un correctiu, però els autors la presenten com una limitació de la mètrica més que com una evidència d'un problema amb el mètode.

Tercer, StructRAG es prova amb un nucli potent (Qwen2-72B-Instruct per a l'estructurador i l'utilitzador). No està clar quina part del guany prové de l'encaminament enfront de la simple crida a un model potent per reescriure i resumir. Una ablació contra una línia base de resposta directa del mateix tamany resoldria això, però no es presenta.

Per què això és important per a la IA financera

Els llibres majors de Beancount són l'instància canònica del problema de la "informació dispersa". Una sola pregunta de conciliació — "per què han baixat els meus actius nets al tercer trimestre?" — pot requerir llegir entrades de transaccions de tres comptes, creuar dades amb un informe de balanç de situació i traçar una cadena de correcció de diversos passos. Aquests passos es mapen gairebé un a un amb els tipus d'estructura de StructRAG: taules per a comparacions de saldos, grafs per a cadenes de transaccions, catàlegs per a resums de períodes.

La idea de l'encaminament és especialment aplicable. Un agent de Beancount centrat en consultes no hauria de bolcar sempre fragments al context; primer hauria de preguntar-se quina forma requereix la resposta. Una pregunta sobre tendències de saldo necessita una taula. Una pregunta de "explica aquesta cadena de reemborsament" necessita un graf. Una pregunta de "resumeix les despeses d'aquest any" necessita un catàleg. Implementar aquesta decisió d'encaminament explícitament —fins i tot amb un model petit— podria reduir dràsticament l'al·lucinació i la manipulació errònia de números que afecta els intents actuals de QA sobre llibres majors.

La història de la latència de 217 a 9,7 minuts també importa a la pràctica. Per a un agent interactiu de Beancount, el cost de pre-indexació de GraphRAG és prohibitiu per a llibres majors que s'actualitzen sovint; l'enfocament en temps d'inferència de StructRAG s'adapta millor al cas d'ús de llibres majors, on hi ha moltes escriptures i poques consultes.

L'advertència: l'estructurador de StructRAG és una crida a un LLM gran en cada consulta. Per a historials de llibres majors molt llargs, aquest cost d'inferència podria arribar a ser significatiu. L'estructuració eficient en tokens —potser amb un model més petit i ajustat— és una qüestió d'enginyeria oberta.

Què llegir a continuació

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — Microsoft GraphRAG utilitza resums comunitaris per a consultes globals; entendre on l'estructuració en temps d'inferència de StructRAG supera la pre-indexació de GraphRAG és el compromís arquitectònic clau a determinar.
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — avalua 13 LLM sobre presentacions XBRL amb taules jeràrquiques; una prova directa de si les estructures de taula i catàleg de StructRAG es transfereixen al format de presentació estructurat que s'assembla als llibres majors de Beancount.
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — avalua agents en decisions financeres reals, cosa que ens permetria mesurar si el raonament estructurat de StructRAG ajuda realment a la qualitat de la decisió final més enllà de la precisió en QA de salt únic.