Ir al contenido principal

StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La queja recurrente contra RAG en producción es que la recuperación es un instrumento tosco cuando los hechos relevantes están dispersos en docenas de documentos en formatos incompatibles. StructRAG (Li et al., ICLR 2025) aborda esto directamente convirtiendo el texto recuperado en una estructura adecuada para la tarea —tabla, grafo, catálogo, algoritmo o fragmento simple— antes de razonar sobre él. Se motiva en una afirmación de la teoría cognitiva: que los humanos reformulan naturalmente la información bruta en representaciones estructuradas al abordar tareas de razonamiento complejas. Ya sea que ese marco sea más una metáfora que un mecanismo, las cifras empíricas merecen un examen cuidadoso.

El artículo

2026-06-01-structrag-inference-time-hybrid-information-structurization

StructRAG propone un flujo de trabajo en tiempo de inferencia con tres módulos. Primero, un enrutador de estructura híbrida (Qwen2-7B-Instruct, ajustado con DPO en 900 pares de preferencias sintéticas) predice cuál de los cinco tipos de estructura se adapta mejor a la pregunta entrante y sus documentos. Segundo, un estructurador de conocimiento disperso (Qwen2-72B-Instruct) reescribe los fragmentos recuperados en el formato elegido. Tercero, un utilizador de conocimiento estructurado descompone la pregunta en subpreguntas, recupera los fragmentos estructurados relevantes y genera la respuesta final. Los cinco tipos de estructura son: tabla (comparaciones estadísticas), grafo (cadenas de múltiples saltos, codificadas como triples de cabeza–relación–cola), algoritmo (tareas de planificación, escritas como pseudocódigo), catálogo (resumen, numeración jerárquica) y fragmento (salto único simple, el respaldo predeterminado de RAG).

Los autores evalúan principalmente en el benchmark Loong (EMNLP 2024 Oral), un benchmark de preguntas y respuestas multidocumento que abarca informes financieros, casos legales y artículos académicos, con entradas que van de 10K a 250K tokens, cubriendo cuatro tipos de tareas: Localización de Puntos Clave, Comparación, Agrupación y Cadena de Razonamiento.

Ideas clave

  • El enrutador entrenado con DPO alcanza una precisión del 94.38% en la selección del tipo de estructura frente al 50.04% en zero-shot con Qwen2-72B-Instruct; la decisión de enrutamiento es el componente más crítico. Eliminar el enrutador reduce la puntuación global del LLM de 60.38 a 45.33.
  • En el nivel más difícil de longitud de documento (200K–250K tokens), StructRAG puntúa 51.42 frente a 28.92 de Contexto Largo y 29.29 de RAG, una brecha de ~22 puntos que se amplía a medida que crece el contexto. El enfoque estándar de "meterlo todo" se deteriora bruscamente, mientras que StructRAG se degrada de forma más gradual.
  • GraphRAG, a pesar de imponer también una estructura, obtiene una puntuación global de LLM de 40.82 en Loong frente a los 69.43 de StructRAG, y tarda 217.1 minutos por consulta frente a los 9.7 minutos de StructRAG. Pre-construir un grafo de conocimiento global es más lento y menos preciso que elegir el formato correcto bajo demanda.
  • En Podcast Transcripts (resumen abierto), StructRAG logra una tasa de éxito por pares del 95.75% sobre el Contexto Largo, lo que sugiere que la síntesis estructurada supera a los enfoques de contexto completo incluso en material de origen menos estructurado.
  • Las puntuaciones de coincidencia exacta (EM) quedan sistemáticamente por detrás de las puntuaciones evaluadas por LLM porque la estructuración cambia la redacción superficial (por ejemplo, "$1,308,463" se convierte en "138463" en una celda de tabla), creando un problema sistemático de desajuste de tokens que penaliza la evaluación automatizada.

Qué se sostiene — y qué no

El resultado central es real y la historia de la ablación es clara: el enrutamiento es lo más importante, seguido de la estructuración y luego la utilización. La mejora en documentos largos es el hallazgo más sólido: 22 puntos en 200K tokens no es ruido.

Dicho esto, tengo tres reservas. Primero, la cobertura del benchmark es escasa. StructRAG informa solo sobre Loong y Podcast Transcripts. Los benchmarks estándar de múltiples saltos (HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) están notablemente ausentes, lo que imposibilita evaluar cómo se compara StructRAG con el gran cuerpo de investigación previa sobre recuperación en esas divisiones establecidas. Los revisores de ICLR presumiblemente plantearon esto; el artículo no ofrece una respuesta directa en la versión publicada.

Segundo, el modelo de evaluación es GPT-4. La puntuación de LLM-como-juez es susceptible al sesgo de longitud y a las preferencias estilísticas que pueden favorecer las salidas del mismo proceso de estructuración, especialmente cuando el juez ha sido entrenado en textos estructurados similares. La métrica EM es un correctivo, pero los autores la plantean como una limitación de la métrica en lugar de evidencia de un problema con el método.

Tercero, StructRAG se prueba con un modelo base grande (Qwen2-72B-Instruct para el estructurador y el utilizador). No está claro cuánto de la ganancia proviene del enrutamiento frente al simple hecho de llamar a un modelo potente para reescribir y resumir. Una ablación contra una línea de base de respuesta directa del mismo tamaño resolvería esto, pero no se presenta.

Por qué esto es importante para la IA financiera

Los libros mayores de Beancount son el ejemplo canónico del problema de la "información dispersa". Una sola pregunta de conciliación —"¿por qué disminuyeron mis activos netos en el tercer trimestre?"— puede requerir leer entradas de transacciones de tres cuentas, cruzar referencias con un informe de balance de situación y rastrear una cadena de corrección de varios pasos. Estos se mapean casi uno a uno con los tipos de estructura de StructRAG: tablas para comparaciones de saldos, grafos para cadenas de transacciones, catálogos para resúmenes de periodos.

La idea del enrutamiento es especialmente aplicable. Un agente de Beancount centrado en consultas no debería siempre volcar fragmentos en el contexto; primero debería preguntar qué forma requiere la respuesta. Una pregunta sobre tendencias de saldo necesita una tabla. Una pregunta de "explica esta cadena de reembolsos" necesita un grafo. Una pregunta de "resume los gastos de este año" necesita un catálogo. Configurar esta decisión de enrutamiento explitamente —incluso con un modelo pequeño— podría reducir drásticamente las alucinaciones y la distorsión de números que plagan los intentos actuales de preguntas y respuestas sobre libros mayores.

La historia de la latencia de 217 a 9.7 minutos también importa en la práctica. Para un agente interactivo de Beancount, el costo de pre-indexación de GraphRAG es prohibitivo para libros mayores que se actualizan con frecuencia; el enfoque en tiempo de inferencia de StructRAG se adapta mejor al caso de uso de libros mayores con mucha escritura y pocas consultas.

La advertencia: el estructurador de StructRAG es una llamada a un LLM grande en cada consulta. Para historiales largos de libros mayores, ese costo de inferencia podría volverse significativo. La estructuración eficiente en tokens —quizás un modelo pequeño ajustado— es una cuestión de ingeniería abierta.

Qué leer a continuación

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — Microsoft GraphRAG utiliza resúmenes de la comunidad para consultas globales; entender dónde la estructuración en tiempo de inferencia de StructRAG supera a la pre-indexación de GraphRAG es el compromiso arquitectónico clave a definir.
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — prueba 13 LLM en presentaciones XBRL con tablas jerárquicas; una prueba directa de si las estructuras de tabla y catálogo de StructRAG se transfieren al formato de presentación estructurado al que se asemejan los libros mayores de Beancount.
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — evalúa agentes en decisiones financieras en vivo, lo que nos permitiría medir si el razonamiento estructurado de StructRAG realmente ayuda a la calidad de la decisión final más allá de la precisión de las preguntas y respuestas de un solo salto.