HippoRAG: memòria a llarg termini per a LLM d'inspiració neurobiològica
HippoRAG, publicat a NeurIPS 2024, és un marc de generació augmentada per recuperació que utilitza un graf de coneixement i PageRank personalitzat per imitar com l'hipocamp humà indexa els records a llarg termini. L'estic llegint perquè el problema central que aborda —recuperar informació distribuïda en molts documents i connectada només mitjançant cadenes de fets— és exactament el problema al qual s'enfronta un agent de Beancount quan respon preguntes sobre historials de llibres comptables plurianuals.
L'article
Jiménez Gutiérrez, Shu, Gu, Yasunaga i Su identifiquen un mode de fallada estructural en el RAG estàndard: si els fragments que responen a una pregunta no comparteixen cap terme amb la pròpia consulta, la recuperació basada en incrustacions (embeddings) simplement no els trobarà. Ho anomenen el problema de la cerca de camins (path-finding): cal recórrer una cadena d'entitats, no només fer coincidir una cadena de consulta amb un vector de document.
La seva solució, HippoRAG, reflecteix la teoria d'indexació hipocampal de la memòria humana. Un LLM (GPT-3.5-turbo) extreu triples d'extracció d'informació oberta (OpenIE) de cada fragment fora de línia, construint un graf de coneixement sense esquema de nodes de sintagmes nominals i arestes relacionals. Un codificador de recuperació dens afegeix arestes de sinonímia entre nodes semànticament similars (similitud del cosinus > 0,8). En el moment de la consulta, el sistema extreu entitats anomenades de la consulta, inicia una propagació de PageRank personalitzat (PPR) des d'aquests nodes i classifica els fragments agregant les probabilitats de PPR entre els seus nodes membres. Un pes d'"especificitat del node" —l'invers del nombre de fragments en què apareix un node— funciona com un IDF natiu del graf.
Idees clau
- IDF natiu del graf: ponderar més els nodes rars en la propagació de PPR és la idea que fa que el sistema funcioni. Sense això, entitats comunes com "empresa" o "el/la" dominarien la recuperació. Les ablacions mostren que eliminar l'especificitat del node fa baixar el Recall@2 de MuSiQue del 40,9 al 37,6.
- Un sol pas supera l'iteratiu: HippoRAG sense iteració aconsegueix una recuperació comparable a IRCoT (que executa múltiples rondes de recuperació entrellaçades amb un raonament de cadena de pensament), sent alhora entre 10 i 30 vegades més barat i entre 6 i 13 vegades més ràpid en el moment de la consulta.
- Guanys massius a 2WikiMultiHopQA: el Recall@5 millora del 68,2 (ColBERTv2) al 89,1 (HippoRAG). La diferència reflecteix exactament l'estructura de cerca de camins de les preguntes d'aquest benchmark.
- Guanys modestos a MuSiQue: el Recall@5 millora només del 49,2 al 51,9. MuSiQue és més difícil; moltes preguntes requereixen un raonament que la topologia del graf no pot capturar completament.
- Regressió a HotpotQA: HippoRAG té un rendiment inferior a ColBERTv2 a HotpotQA (Recall@2: 60,5 vs. 64,7). Les preguntes de HotpotQA es poden resoldre generalment a partir de dos fragments estretament relacionats, cosa que afavoreix els punts forts de la recuperació d'incrustacions més que no pas el recorregut del graf.
- La qualitat d'OpenIE és el coll d'ampolla: les ablacions mostren que l'ús de Llama-3-70B per a l'extracció va degradar el rendiment a causa d'errors de format, mentre que Llama-3-8B va ser competitiu amb GPT-3.5-turbo. L'extracció estàndard és fràgil.
Què se sosté —i què no—
El resultat és real: a 2WikiMultiHopQA, que està dissenyat específicament al voltant de cadenes de múltiples salts, el recorregut del graf supera la recuperació densa per un ampli marge. L'enfocament PPR és elegant: sembrar la propagació a les entitats de la consulta i deixar que el graf ompli l'entorn és una manera fonamentada de gestionar el desajust distributiu entre la consulta i els fragments de suport.
El que em sembla menys convincent és l'enfocament neurobiològic. El document estableix una analogia entre PageRank i l'activitat de la regió CA3 de l'hipocamp, citant un estudi de ciència cognitiva que va trobar una correlació entre les probabilitats de record de paraules humanes i les puntuacions de PageRank. Això és una observació correlacional de la psicolingüística, no una derivació. El PPR no es va dissenyar a partir de la fisiologia de l'hipocamp; anomenar-ho "d'inspiració neurobiològica" és més una qüestió de màrqueting que de mecanisme.
La afirmació d'eficiència també mereix un escrutini. El HippoRAG d'un sol pas és entre 10 i 30 vegades més barat en línia que IRCoT, però el cost d'indexació fora de línia (executar GPT-3.5-turbo per extreure triples OpenIE de cada document) és inicial i substancial. Per a un corpus que canvia amb freqüència, aquest cost es torna a pagar en cada actualització. El document no informa del cost total d'indexació.
Finalment, els benchmarks són a escala mitjana: entre 6.000 i 11.000 fragments i menys de 100.000 nodes de graf. Els autors llisten explícitament l'escalabilitat com una qüestió oberta. No s'ha validat si el PPR es manté amb centenars de milers d'entrades de llibres comptables que abasten dècades.
Per què això és important per a la IA financera
Un llibre comptable de Beancount és una cadena de fets: jerarquies de comptes, referències de transaccions, referències creuades de regles, assignacions pressupostàries. Una pregunta com "quines despeses del 2022 entren dins la mateixa categoria pressupostària que la factura #INV-2019-0042?" requereix recórrer el graf de comptes, transaccions i categories, exactament la tasca de cerca de camins on el RAG estàndard falla.
El disseny d'indexació de HippoRAG s'adapta naturalment: extreure triples d'entitat-relació de les entrades del llibre comptable (compte, import, contrapart, regla), construir un graf i després executar PPR sembrat a les entitats de la consulta. La ponderació de l'especificitat del node restaria importància de manera natural a nodes genèrics com "despeses" o "actius" i augmentaria la dels noms de proveïdors rars o codis de compte, que és precisament el que es busca.
L'obstacle pràctic per a Beancount és el cost d'actualització incremental. Cada nova transacció afegeix nodes i arestes; tornar a executar l'extracció OpenIE en entrades noves és viable, però la complexitat del PPR escala amb la mida del graf. El seguiment de HippoRAG 2 (arXiv:2502.14802) afirma una millora addicional del 7% en tasques associatives, però la qüestió de l'escalabilitat continua oberta. Per a un llibre comptable amb milions de transaccions, aquest és el problema d'enginyeria que caldria resoldre abans d'implementar aquest enfocament.
Què llegir a continuació
- GraphRAG (Edge et al., arXiv:2404.16130) — L'alternativa de Microsoft que resumeix comunitats de grafs en lloc d'executar PPR; millor per a preguntes temàtiques àmplies, i un contrast útil amb l'enfocament de cadena d'entitats de HippoRAG.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — organització recursiva d'arbres abstractius per a RAG; HippoRAG el supera en benchmarks de múltiples salts, però RAPTOR pot gestionar millor les tasques de resum de llarg abast on el recorregut del graf no és l'enfocament adequat.
- IRCoT (Trivedi et al., arXiv:2212.10509) — la base de referència de recuperació iterativa que HippoRAG afirma igualar a un cost inferior; val la pena llegir-lo per entendre amb què s'està comparant realment l'afirmació d'eficiència de 10-30 vegades.
