Doorgaan naar hoofdinhoud

HippoRAG: Neurobiologisch geïnspireerd langetermijngeheugen voor LLM's

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

HippoRAG, gepubliceerd op NeurIPS 2024, is een retrieval-augmented generation framework dat gebruikmaakt van een kennisgraaf en Personalized PageRank om na te bootsen hoe de menselijke hippocampus langetermijngeheugens indexeert. Ik lees dit omdat het kernprobleem dat het aanpakt—het ophalen van informatie die verspreid is over veel documenten en alleen verbonden is via ketens van feiten—precies het probleem is waar een Beancount-agent mee te maken krijgt bij het beantwoorden van vragen over meerjarige grootboekgeschiedenissen.

Het artikel

2026-05-07-hipporag-neurobiologisch-geinspireerd-langetermijngeheugen-llms

Jiménez Gutiérrez, Shu, Gu, Yasunaga en Su identificeren een structurele foutmodus in standaard RAG: als de passages die een vraag beantwoorden geen termen delen met de query zelf, zal op embeddings gebaseerde retrieval ze simpelweg niet vinden. Ze noemen dit het padzoekprobleem—je moet een keten van entiteiten doorlopen, en niet alleen een query-string matchen met een documentvector.

Hun oplossing, HippoRAG, weerspiegelt de hippocampaal-indexeringstheorie van het menselijk geheugen. Een LLM (GPT-3.5-turbo) extraheert offline open informatie-extractie (OpenIE) triples uit elke passage en bouwt zo een schemaloze kennisgraaf van naamwoordgroep-nodes en relationele edges. Een dense retrieval-encoder voegt synoniem-edges toe tussen semantisch gelijkaardige nodes (cosinus-gelijkenis > 0,8). Tijdens de query extraheert het systeem benoemde entiteiten uit de query, start een Personalized PageRank (PPR) propagatie vanuit die nodes en rangschikt passages door PPR-waarschijnlijkheden over hun bijbehorende nodes te aggregeren. Een "node-specificiteit" gewicht—het omgekeerde van het aantal passages waarin een node voorkomt—fungeert als een graaf-native IDF.

Belangrijkste ideeën

  • Graaf-native IDF: het zwaarder wegen van zeldzame nodes in PPR-propagatie is het inzicht dat het systeem laat werken. Zonder dit zouden algemene entiteiten zoals "bedrijf" of "de" de zoekresultaten domineren. Ablaties laten zien dat het verwijderen van node-specificiteit de MuSiQue Recall@2 doet dalen van 40,9 naar 37,6.
  • Eén stap is beter dan iteratief: HippoRAG zonder iteratie bereikt een vergelijkbare recall als IRCoT (dat meerdere zoekronden uitvoert afgewisseld met chain-of-thought redeneren), terwijl het 10–30× goedkoper en 6–13× sneller is tijdens de query.
  • Enorme winst op 2WikiMultiHopQA: Recall@5 verbetert van 68,2 (ColBERTv2) naar 89,1 (HippoRAG). Het verschil weerspiegelt precies de padzoekstructuur van de vragen in die benchmark.
  • Bescheiden winst op MuSiQue: Recall@5 verbetert slechts van 49,2 naar 51,9. MuSiQue is lastiger; veel vragen vereisen redeneringen die de graaftopologie niet volledig kan vastleggen.
  • HotpotQA regressie: HippoRAG presteert minder goed dan ColBERTv2 op HotpotQA (Recall@2: 60,5 vs. 64,7). HotpotQA-vragen zijn over het algemeen oplosbaar vanuit twee nauw verwante passages, wat de sterke punten van embedding retrieval benut in plaats van graaftraversal.
  • OpenIE-kwaliteit is het knelpunt: ablaties laten zien dat het gebruik van Llama-3-70B voor extractie de prestaties verslechterde door formatteringsfouten, terwijl Llama-3-8B competitief was met GPT-3.5-turbo. Kant-en-klare extractie is kwetsbaar.

Wat standhoudt—en wat niet

Het resultaat is reëel: op 2WikiMultiHopQA, dat specifiek is ontworpen rond multi-hop ketens, presteert graaftraversal aanzienlijk beter dan dense retrieval. De PPR-aanpak is elegant—het zaaien van propagatie bij query-entiteiten en de graaf de omgeving laten invullen is een principiële manier om distributionele discrepanties tussen query en ondersteunende passages aan te pakken.

Wat ik minder overtuigend vind, is de neurobiologische inkadering. Het artikel trekt een analogie tussen PageRank en hippocampaal CA3-activiteit, waarbij een cognitieve wetenschappelijke studie wordt geciteerd die een correlatie vond tussen menselijke woordherinneringskansen en PageRank-scores. Dat is een correlationele observatie uit de psycholinguïstiek, geen afgeleide. PPR is niet ontworpen vanuit de fysiologie van de hippocampus—dit "neurobiologisch geïnspireerd" noemen is meer marketing dan mechanisme.

De bewering over efficiëntie verdient ook nader onderzoek. Single-step HippoRAG is online 10–30× goedkoper dan IRCoT—maar de offline indexeringskosten (het draaien van GPT-3.5-turbo om OpenIE-triples uit elk document te extraheren) zijn aanzienlijk en worden vooraf gemaakt. Voor een corpus dat vaak verandert, worden deze kosten bij updates opnieuw betaald. Het artikel rapporteert niet de totale indexeringskosten.

Ten slotte zijn de benchmarks van gemiddelde schaal: 6K–11K passages en minder dan 100K graaf-nodes. De auteurs noemen schaalbaarheid expliciet als een open vraag. Of PPR standhoudt bij honderdduizenden grootboekboekingen verspreid over decennia, is niet gevalideerd.

Waarom dit belangrijk is voor financiële AI

Een Beancount-grootboek is een keten van feiten: rekeninghiërarchieën, transactiereferenties, regel-kruisverwijzingen, budgettoewijzingen. Een vraag als "welke uitgaven in 2022 vallen onder dezelfde budgetcategorie als factuur #INV-2019-0042?" vereist het doorlopen van de graaf van rekeningen, transacties en categorieën—precies de padzoektaak waarbij standaard RAG faalt.

Het indexeringsontwerp van HippoRAG sluit natuurlijk aan: extraheer entiteit-relatie-triples uit grootboekboekingen (rekening, bedrag, tegenpartij, regel), bouw een graaf en draai vervolgens PPR gezaaid bij query-entiteiten. De node-specificiteit-weging zou natuurlijk generieke nodes zoals "uitgaven" of "activa" lager wegen en zeldzame namen van leveranciers of rekeningcodes hoger wegen, wat precies is wat je wilt.

De praktische blokkade voor Beancount zijn de incrementele updatekosten. Elke nieuwe transactie voegt nodes en edges toe; het opnieuw uitvoeren van OpenIE-extractie op nieuwe boekingen is haalbaar, maar de complexiteit van PPR schaalt mee met de omvang van de graaf. De HippoRAG 2-opvolger (arXiv:2502.14802) claimt een verdere verbetering van 7% in associatieve taken, maar de schaalbaarheidsvraag blijft open. Voor een grootboek met miljoenen transacties is dit het technische probleem dat opgelost moet worden voordat deze aanpak ingezet kan worden.

Wat nu te lezen

  • GraphRAG (Edge et al., arXiv:2404.16130) — Het alternatief van Microsoft dat graafgemeenschappen samenvat in plaats van PPR te draaien; beter voor brede thematische vragen en een nuttig contrast met de entiteitsketen-benadering van HippoRAG.
  • RAPTOR (Sarthi et al., arXiv:2401.18059) — recursieve abstractieve boomorganisatie voor RAG; HippoRAG verslaat het op multi-hop benchmarks, maar RAPTOR kan taken voor langetermijnsamenvatting beter aan waarbij graaftraversal niet de juiste aanpak is.
  • IRCoT (Trivedi et al., arXiv:2212.10509) — de iteratieve zoek-baseline waarmee HippoRAG claimt gelijkwaardig te zijn tegen lagere kosten; de moeite waard om te lezen om te begrijpen waar de 10–30× efficiëntieclaim feitelijk mee vergeleken wordt.