HippoRAG: Memoria a largo plazo para LLMs inspirada en la neurobiología
HippoRAG, publicado en NeurIPS 2024, es un marco de generación aumentada por recuperación (RAG) que utiliza un grafo de conocimiento y PageRank Personalizado para imitar cómo el hipocampo humano indexa los recuerdos a largo plazo. Lo estoy leyendo porque el problema central que aborda —recuperar información distribuida en muchos documentos y conectada solo a través de cadenas de hechos— es exactamente el problema que enfrenta un agente de Beancount al responder preguntas sobre historiales contables de varios años.
El artículo
Jiménez Gutiérrez, Shu, Gu, Yasunaga y Su identifican un modo de falla estructural en el RAG estándar: si los pasajes que responden a una pregunta no comparten ningún término con la consulta en sí, la recuperación basada en embeddings simplemente no los encontrará. Llaman a esto el problema de búsqueda de rutas (path-finding): es necesario atravesar una cadena de entidades, no solo comparar una cadena de consulta contra un vector de documento.
Su solución, HippoRAG, refleja la teoría de indexación hipocampal de la memoria humana. Un LLM (GPT-3.5-turbo) extrae triples de extracción de información abierta (OpenIE) de cada pasaje fuera de línea, construyendo un grafo de conocimiento sin esquema de nodos de frases nominales y aristas relacionales. Un codificador de recuperación densa añade aristas de sinonimia entre nodos semánticamente similares (similitud de coseno > 0,8). En el momento de la consulta, el sistema extrae entidades nombradas de la consulta, siembra una propagación de PageRank Personalizado (PPR) desde esos nodos y clasifica los pasajes agregando las probabilidades de PPR a través de sus nodos miembros. Un peso de "especificidad de nodo" —el inverso del número de pasajes en los que aparece un nodo— funciona como un IDF nativo del grafo.
Ideas clave
- IDF nativo del grafo: ponderar más fuertemente los nodos raros en la propagación de PPR es la idea que hace que el sistema funcione. Sin ella, entidades comunes como "empresa" o "el" dominarían la recuperación. Las ablaciones muestran que eliminar la especificidad de nodo reduce el Recall@2 de MuSiQue de 40,9 a 37,6.
- Un solo paso supera a lo iterativo: HippoRAG sin iteración logra un recall comparable a IRCoT (que ejecuta múltiples rondas de recuperación entrelazadas con razonamiento de cadena de pensamiento), siendo al mismo tiempo entre 10 y 30 veces más barato y entre 6 y 13 veces más rápido en el momento de la consulta.
- Ganancias masivas en 2WikiMultiHopQA: El Recall@5 mejora de 68,2 (ColBERTv2) a 89,1 (HippoRAG). La brecha refleja exactamente la estructura de búsqueda de rutas de las preguntas de ese benchmark.
- Ganancias modestas en MuSiQue: El Recall@5 mejora solo de 49,2 a 51,9. MuSiQue es más difícil; muchas preguntas requieren un razonamiento que la topología del grafo no puede capturar por completo.
- Regresión en HotpotQA: HippoRAG rinde menos que ColBERTv2 en HotpotQA (Recall@2: 60,5 frente a 64,7). Las preguntas de HotpotQA generalmente se pueden resolver a partir de dos pasajes estrechamente relacionados, lo que favorece las fortalezas de la recuperación por embeddings en lugar de la navegación por grafos.
- La calidad de OpenIE es el cuello de botella: las ablaciones muestran que el uso de Llama-3-70B para la extracción degradó el rendimiento debido a errores de formato, mientras que Llama-3-8B fue competitivo con GPT-3.5-turbo. La extracción lista para usar es frágil.
Qué se mantiene y qué no
El resultado es real: en 2WikiMultiHopQA, que está diseñado específicamente en torno a cadenas de múltiples saltos, la navegación por grafos supera a la recuperación densa por un amplio margen. El enfoque PPR es elegante: sembrar la propagación en las entidades de la consulta y dejar que el grafo complete el entorno es una forma fundamentada de manejar el desajuste de distribución entre la consulta y los pasajes de apoyo.
Lo que encuentro menos convincente es el marco neurobiológico. El artículo establece una analogía entre PageRank y la actividad de la región CA3 del hipocampo, citando un estudio de ciencia cognitiva que encontró una correlación entre las probabilidades de recuerdo de palabras humanas y las puntuaciones de PageRank. Esa es una observación correlacional de la psicolingüística, no una derivación. El PPR no fue diseñado a partir de la fisiología hipocampal; llamar a esto "inspirado en la neurobiología" es más una cuestión de marca que de mecanismo.
La afirmación de eficiencia también merece un escrutinio. HippoRAG de un solo paso es entre 10 y 30 veces más barato en línea que IRCoT, pero el costo de indexación fuera de línea (ejecutar GPT-3.5-turbo para extraer triples OpenIE de cada documento) es inicial y sustancial. Para un corpus que cambia con frecuencia, este costo se paga nuevamente en las actualizaciones. El artículo no informa el costo total de indexación.
Finalmente, los benchmarks son de escala media: de 6.000 a 11.000 pasajes y menos de 100.000 nodos de grafo. Los autores enumeran explícitamente la escalabilidad como una cuestión abierta. No se ha validado si el PPR se mantiene en cientos de miles de entradas contables que abarcan décadas.
Por qué esto es importante para la IA en finanzas
Un libro mayor de Beancount es una cadena de hechos: jerarquías de cuentas, referencias de transacciones, referencias cruzadas de reglas, asignaciones presupuestarias. Una pregunta como "¿qué gastos de 2022 caen bajo la misma categoría presupuestaria que la factura #INV-2019-0042?" requiere recorrer el grafo de cuentas, transacciones y categorías; exactamente la tarea de búsqueda de rutas donde el RAG estándar falla.
El diseño de indexación de HippoRAG se mapea de forma natural: extraer triples de entidad-relación de las entradas del libro mayor (cuenta, monto, contraparte, regla), construir un grafo y luego ejecutar PPR sembrado en las entidades de la consulta. La ponderación de especificidad de nodo restaría importancia naturalmente a los nodos genéricos como "gastos" o "activos" y aumentaría la importancia de nombres de proveedores o códigos de cuenta raros, que es precisamente lo que se busca.
El bloqueador práctico para Beancount es el costo de actualización incremental. Cada nueva transacción añade nodos y aristas; volver a ejecutar la extracción OpenIE en las nuevas entradas es factible, pero la complejidad del PPR escala con el tamaño del grafo. La continuación HippoRAG 2 (arXiv:2502.14802) afirma una mejora adicional del 7% en tareas asociativas, pero la cuestión de la escalabilidad sigue abierta. Para un libro mayor con millones de transacciones, este es el problema de ingeniería que habría que resolver antes de implementar este enfoque.
Qué leer a continuación
- GraphRAG (Edge et al., arXiv:2404.16130) — La alternativa de Microsoft que resume comunidades de grafos en lugar de ejecutar PPR; mejor para preguntas temáticas amplias y un contraste útil al enfoque de cadena de entidades de HippoRAG.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — organización de árbol abstractivo recursivo para RAG; HippoRAG lo supera en benchmarks de múltiples saltos, pero RAPTOR puede manejar mejor las tareas de resumen de largo alcance donde la navegación por grafos no es el marco adecuado.
- IRCoT (Trivedi et al., arXiv:2212.10509) — el modelo base de recuperación iterativa que HippoRAG afirma igualar a un menor costo; vale la pena leerlo para entender con qué se está comparando realmente la afirmación de eficiencia de 10 a 30 veces.
