GraphRAG: De la resumització local a la global centrada en consultes
L'article de GraphRAG de Microsoft va arribar l'abril del 2024 i es va convertir ràpidament en la referència obligada per a qualsevol que es preguntés si els grafs de coneixement podrien rescatar el RAG del seu mode de fallada més obvi: preguntes que requereixen sintetitzar un corpus sencer en lloc de recuperar un fragment específic. L'estic llegint ara perquè el registre anterior sobre FinAuditing va exposar com els LLM tenen dificultats amb les estructures XBRL multidispositiu — i l'enfocament de resum de comunitat de GraphRAG és la resposta existent més destacada exactament a aquest tipus de problema de raonament global.
L'article
"From Local to Global: A Graph RAG Approach to Query-Focused Summarization," de Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness i Jonathan Larson (Microsoft, arXiv:2404.16130), proposa un flux de treball impulsat per LLM en dues etapes per respondre el que els autors anomenen "preguntes de comprensió global" — consultes com "Quins són els temes principals d'aquest conjunt de dades?" que el RAG vectorial estàndard no pot respondre perquè cap fragment individual conté la resposta.
L'enfocament es desenvolupa en dues fases. Durant la indexació, un LLM extreu entitats, relacions i afirmacions de cada fragment de text, les ensambla en un graf d'entitats ponderat i després executa la detecció de comunitats de Leiden per particionar el graf en una jerarquia de clústers relacionats, generant un resum en llenguatge natural per a cada comunitat a tots els nivells. En el moment de la consulta, cada resum de comunitat genera de manera independent una resposta parcial (l'etapa map), aquestes respostes parcials es classifiquen per puntuació d'utilitat i s'assemblen fins al límit de la finestra de context (l'etapa reduce), i el resultat és una resposta final sintetitzada.
Idees clau
- La detecció jeràrquica de comunitats de Leiden estructura el corpus en quatre nivells de granularitat (C0–C3), permetent als usuaris intercanviar la profunditat de la resposta pel cost de tokens — els resums de nivell arrel van requerir un 97% menys de tokens que processar el text font directament.
- En dos corpus de prova — transcripcions de podcasts (~1M de tokens, 8.564 entitats, 20.691 arestes de relació) i articles de notícies (~1,7M de tokens, 15.754 entitats, 19.520 arestes) — GraphRAG va aconseguir taxes de victòria d'exhaustivitat del 72–83% i taxes de victòria de diversitat del 62–82% en comparació amb el RAG vectorial en comparacions per parelles jutjades per LLM.
- El disseny map-reduce evita les crides a LLM amb context llarg en el moment de la consulta: els resums de comunitats estan precalculats, de manera que la recuperació consisteix a obtenir un resum en lloc de tornar a processar documents bruts.
- L'article avalua sis condicions: quatre nivells jeràrquics de GraphRAG, resumització de text (TS) i cerca semàntica (SS). Les condicions globals de GraphRAG superen consistentment la SS en preguntes de comprensió; la SS funciona millor en consultes de cerca específiques.
- Els experiments d'extracció d'afirmacions van trobar que les condicions globals van extreure una mitjana de 31–34 afirmacions per resposta enfront de les 25–26 del RAG vectorial, cosa que suggereix una cobertura temàtica més àmplia independentment de les preferències de puntuació del jutge LLM.
- El flux de treball no requereix cap esquema o ontologia específica del domini — l'extracció d'entitats, l'etiquetatge de relacions i la resumització de comunitats provenen exclusivament de la inferència mitjançant indicacions (prompts).
Què es manté — i què no
La idea arquitectònica central és correcta: el RAG de similitud de cosinus no pot respondre preguntes a nivell de corpus perquè no hi ha cap fragment individual que representi el conjunt. Els resums de comunitats precalculats de GraphRAG són una solució de principis, i la jerarquia basada en Leiden és una elecció de disseny real que permet navegar des de resums globals generals fins a resums de clústers detallats depenent de la tolerància al cost.
Però l'avaluació té problemes greus. Un estudi independent recent (arXiv:2506.06331) va auditar la metodologia de LLM com a jutge utilitzada per GraphRAG i els seus successors i va trobar tres biaixos sistemàtics: biaix de posició (les taxes de victòria canvien més d'un 30% simplement intercanviant quina resposta apareix primer a la indicació), biaix de longitud (una diferència de 25 tokens en una resposta de 200 tokens crea un canvi de 50 punts en la taxa de victòria) i biaix de prova (avaluacions idèntiques produeixen resultats contradictoris entre execucions). Després de corregir aquests biaixos, els avantatges de rendiment afirmats col·lapsen — la taxa de victòria del 66,7% reportada per LightRAG sobre el RAG ingenu es corregeix al 39,06%. Les pròpies xifres d'exhaustivitat del 72–83% de GraphRAG segurament pateixen de la mateixa metodologia.
El cost d'indexació també és un obstacle real. Una anàlisi d'un professional va citar costos de construcció de l'índex que arribaven als 47,9 $ amb GPT-4o per a corpus de mida moderada. La variant LazyGraphRAG de Microsoft, llançada posteriorment, redueix això al 0,1% del cost de GraphRAG complet en ajornar l'extracció del graf al moment de la consulta — el que és un reconeixement implícit que el pressupost d'indexació original és impracticable per a molts desplegaments reals.
Els dos corpus d'avaluació també són limitats: dos conjunts de dades en anglès que sumen entre 1 i 1,7 milions de tokens cada un. Els autors reconeixen que es desconeix la generalització a altres dominis i escales. Per a dades estructurades o semiestructurades — documents financers, exportacions de llibres majors — les indicacions d'extracció d'entitats optimitzades per a text narratiu poden passar per alt les relacions tabulars i jeràrquiques que més importen a la pràctica.
Per què això és important per a la IA financera
Un llibre major de Beancount és exactament el corpus on sorgeixen de manera natural les consultes de comprensió global: "Quines són les meves categories de despesa més grans durant els últims tres anys?" o "Quins comptes de proveïdors han crescut més d'un 20% interanual?". El RAG estàndard no pot respondre aquestes preguntes perquè cap entrada individual conté la resposta — l'agent ha de sintetitzar milers de transaccions.
L'enfocament de resum de comunitat de GraphRAG s'adapta a això: si els nodes del graf de coneixement són comptes, beneficiaris i categories de transaccions, i les arestes són relacions de coaparició o de compte pare, llavors els resums de comunitats es converteixen en vistes agregades precalculades sobre el llibre major. La jerarquia també reflecteix com l'arbre de comptes de Beancount ja estructura les dades — Actius (Assets), Despeses (Expenses) i Ingressos (Income) es descomponen recursivament, la qual cosa encaixa naturalment amb l'agrupament jeràrquic estil Leiden.
Dit això, les troballes sobre el biaix de l'avaluació són un advertiment: les impressionants taxes de victòria de l'article poden no mantenir-se sota proves controlades rigoroses, i el cost d'indexació fa que aquesta sigui una aposta d'enginyeria més costosa del que sembla. Per a Beancount específicament, l'agregació estructurada — consultes tipus SQL o pandas sobre el llibre major exportat — pot superar la resumització de comunitats impulsada per LLM per a analítiques deterministes. El valor de GraphRAG seria més alt per a preguntes amb molta narrativa, com el raonament sobre notes de transaccions i noms de proveïdors a escala, on hi ha una ambigüitat genuïna que les consultes estructurades no poden resoldre.
Què llegir a continuació
- LazyGraphRAG (blog de Microsoft Research, 2024) — la variant de Microsoft amb cost reduït que ajorna l'extracció del graf; directament rellevant per determinar si l'enfocament de GraphRAG es pot desplegar a l'escala d'un llibre major real sense costos d'indexació prohibitius.
- "How Significant Are the Real Performance Gains? An Unbiased Evaluation Framework for GraphRAG" (arXiv:2506.06331) — l'auditoria sistemàtica del biaix; lectura essencial abans d'acceptar qualsevol xifra de taxa de victòria de les avaluacions amb LLM com a jutge dels mètodes de resumització.
- "Towards Verifiably Safe Tool Use for LLM Agents" (arXiv:2601.08012, ICSE 2026) — el següent element de la llista de lectura; passa de la resumització a la seguretat d'escriptura (write-back), que és el problema no resolt més urgent per als agents de Beancount.
