Ir al contenido principal

GraphRAG: Del Resumen Local al Global Enfocado en Consultas

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

El artículo sobre GraphRAG de Microsoft se publicó en abril de 2024 y rápidamente se convirtió en la referencia obligada para cualquiera que se preguntara si los grafos de conocimiento podrían rescatar al RAG de su modo de falla más obvio: preguntas que requieren sintetizar un corpus completo en lugar de recuperar un pasaje específico. Lo estoy leyendo ahora porque el registro previo sobre FinAuditing expuso cómo los LLM tienen dificultades con las estructuras XBRL de múltiples documentos, y el enfoque de resumen de comunidad de GraphRAG es la respuesta existente más destacada a ese tipo exacto de problema de razonamiento global.

El artículo

2026-06-04-graphrag-local-to-global-query-focused-summarization

"From Local to Global: A Graph RAG Approach to Query-Focused Summarization", de Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness y Jonathan Larson (Microsoft, arXiv:2404.16130), propone un flujo de trabajo de dos etapas impulsado por LLM para responder a lo que los autores llaman "preguntas de comprensión global": consultas como "¿Cuáles son los temas principales en este conjunto de datos?" que el RAG vectorial estándar no puede responder porque ningún pasaje individual contiene la respuesta.

El enfoque procede en dos fases. Durante la indexación, un LLM extrae entidades, relaciones y afirmaciones de cada fragmento de texto, las ensambla en un grafo de entidades ponderado y luego ejecuta la detección de comunidades de Leiden para particionar el grafo en una jerarquía de clústeres relacionados, generando un resumen en lenguaje natural para cada comunidad en cada nivel. Al momento de la consulta, cada resumen de comunidad genera de forma independiente una respuesta parcial (el paso map), estas respuestas parciales se clasifican por su puntuación de utilidad y se ensamblan hasta el límite de la ventana de contexto (el paso reduce), y el resultado es una respuesta final sintetizada.

Ideas clave

  • La detección jerárquica de comunidades de Leiden estructura el corpus en cuatro niveles de granularidad (C0–C3), lo que permite a los usuarios intercambiar profundidad de respuesta por costo de tokens; los resúmenes a nivel de raíz requirieron un 97% menos de tokens que procesar el texto fuente directamente.
  • En dos corpus de prueba —transcripciones de podcasts (~1M de tokens, 8,564 entidades, 20,691 aristas de relación) y artículos de noticias (~1.7M de tokens, 15,754 entidades, 19,520 aristas)— GraphRAG logró tasas de éxito de exhaustividad del 72–83% y tasas de éxito de diversidad del 62–82% frente al RAG vectorial en comparaciones por pares juzgadas por LLM.
  • El diseño map-reduce evita llamadas a LLM de contexto largo en el momento de la consulta: los resúmenes de comunidad se precalculan, por lo que la recuperación se convierte en obtener un resumen en lugar de reprocesar documentos sin procesar.
  • El artículo evalúa seis condiciones: cuatro niveles de jerarquía de GraphRAG, resumen de texto (TS) y búsqueda semántica (SS). Las condiciones globales de GraphRAG superan consistentemente a SS en preguntas de comprensión; SS funciona mejor en consultas de búsqueda específicas.
  • Los experimentos de extracción de afirmaciones encontraron que las condiciones globales extrajeron un promedio de 31–34 afirmaciones por respuesta frente a las 25–26 del RAG vectorial, lo que sugiere una cobertura temática más amplia independientemente de las preferencias de puntuación del juez LLM.
  • El flujo de trabajo no requiere un esquema o ontología específica del dominio: la extracción de entidades, el etiquetado de relaciones y el resumen de comunidades provienen únicamente de la inferencia mediante prompts.

Qué se mantiene y qué no

La idea arquitectónica central es correcta: el RAG de similitud de coseno no puede responder preguntas a nivel de corpus porque no hay un solo fragmento que represente el todo. Los resúmenes de comunidad precalculados de GraphRAG son una solución fundamentada, y la jerarquía basada en Leiden es una elección de diseño real que permite navegar desde resúmenes globales generales hasta resúmenes de clústeres detallados dependiendo de la tolerancia al costo.

Pero la evaluación tiene problemas serios. Un estudio independiente reciente (arXiv:2506.06331) auditó la metodología de LLM como juez utilizada por GraphRAG y sus sucesores y encontró tres sesgos sistemáticos: sesgo de posición (las tasas de éxito cambian en más del 30% simplemente intercambiando qué respuesta aparece primero en el prompt), sesgo de longitud (una diferencia de 25 tokens en una respuesta de 200 tokens crea un cambio de 50 puntos en la tasa de éxito) y sesgo de prueba (evaluaciones idénticas producen resultados contradictorios en diferentes ejecuciones). Tras corregir estos factores, las supuestas ventajas de rendimiento colapsan: la tasa de éxito del 66.7% de LightRAG sobre el RAG básico se corrige a un 39.06%. Los propios números de exhaustividad del 72–83% de GraphRAG casi con seguridad sufren de la misma metodología.

El costo de indexación también es un obstáculo genuino. Un análisis de profesionales citó costos de construcción de índices que alcanzaron los $47.9 con GPT-4o para corpus de tamaño moderado. La propia variante LazyGraphRAG de Microsoft, lanzada posteriormente, reduce esto al 0.1% del costo total de GraphRAG al posponer la extracción del grafo hasta el momento de la consulta, lo cual es un reconocimiento implícito de que el presupuesto de indexación original es poco práctico para muchos despliegues reales.

Los dos corpus de evaluación también son limitados: dos conjuntos de datos en inglés de 1–1.7M de tokens cada uno. Los autores reconocen que se desconoce la generalización a otros dominios y escalas. Para datos estructurados o semiestructurados —informes financieros, exportaciones de libros mayores—, los prompts de extracción de entidades optimizados para texto narrativo pueden omitir las relaciones tabulares y jerárquicas que más importan en la práctica.

Por qué esto importa para la IA financiera

Un libro mayor de Beancount es exactamente el corpus donde surgen de forma natural las consultas de comprensión global: "¿Cuáles han sido mis categorías de gastos más grandes en los últimos tres años?" o "¿Qué cuentas de proveedores han crecido más de un 20% interanual?". El RAG estándar no puede responder a esto porque ninguna entrada individual contiene la respuesta; el agente necesita sintetizar miles de transacciones.

El enfoque de resumen de comunidad de GraphRAG se adapta a esto: si los nodos del grafo de conocimiento son cuentas, beneficiarios y categorías de transacciones, y las aristas son relaciones de co-ocurrencia o de cuenta padre, entonces los resúmenes de comunidad se convierten en vistas agregadas precalculadas sobre el libro mayor. La jerarquía también refleja cómo el árbol de cuentas de Beancount ya estructura los datos: Activos, Gastos e Ingresos se descomponen recursivamente, lo que encaja de forma natural con la agrupación jerárquica estilo Leiden.

Dicho esto, los hallazgos sobre el sesgo de evaluación son una advertencia: las impresionantes tasas de éxito del artículo pueden no mantenerse bajo pruebas controladas rigurosas, y el costo de indexación hace que esta sea una apuesta de ingeniería más pesada de lo que parece. Específicamente para Beancount, la agregación estructurada —consultas estilo SQL o pandas sobre el libro mayor exportado— puede superar al resumen de comunidades impulsado por LLM para analíticas deterministas. El valor de GraphRAG sería mayor para preguntas con carga narrativa, como el razonamiento sobre notas de transacciones y nombres de proveedores a escala, donde existe una ambigüedad genuina que las consultas estructuradas no pueden resolver.

Qué leer a continuación

  • LazyGraphRAG (blog de Microsoft Research, 2024): la variante de Microsoft con costo reducido que pospone la extracción del grafo; directamente relevante para determinar si el enfoque de GraphRAG es desplegable a escala real de libros mayores sin costos de indexación prohibitivos.
  • "How Significant Are the Real Performance Gains? An Unbiased Evaluation Framework for GraphRAG" (arXiv:2506.06331): la auditoría de sesgo sistemático; lectura esencial antes de aceptar cualquier cifra de tasa de éxito de las evaluaciones de métodos de resumen mediante LLM como juez.
  • "Towards Verifiably Safe Tool Use for LLM Agents" (arXiv:2601.08012, ICSE 2026): el siguiente elemento en la lista de lectura; cambia del resumen a la seguridad de escritura (write-back), que es el problema sin resolver más apremiante para los agentes de Beancount.