HippoRAG: Neurobiologisch inspirierter Langzeitspeicher für LLMs
HippoRAG, veröffentlicht auf der NeurIPS 2024, ist ein Framework für Retrieval-Augmented Generation (RAG), das einen Wissensgraph und Personalized PageRank nutzt, um die Art und Weise nachzuahmen, wie der menschliche Hippocampus Langzeiterinnerungen indexiert. Ich lese es, weil das Kernproblem, das es adressiert – das Abrufen von Informationen, die über viele Dokumente verteilt und nur über Faktenketten verbunden sind – genau das Problem ist, mit dem ein Beancount-Agent konfrontiert ist, wenn er Fragen zu mehrjährigen Hauptbuchhistorien beantworten soll.
Das Paper
Jiménez Gutiérrez, Shu, Gu, Yasunaga und Su identifizieren eine strukturelle Schwachstelle im Standard-RAG: Wenn die Textstellen, die eine Frage beantworten, keine gemeinsamen Begriffe mit der Abfrage selbst haben, wird ein Embedding-basiertes Retrieval sie schlichtweg nicht finden. Sie nennen dies das Pfadfindungsproblem – man muss eine Kette von Entitäten durchlaufen, anstatt nur einen Abfragestring mit einem Dokumentvektor abzugleichen.
Ihre Lösung, HippoRAG, spiegelt die Hippocampus-Indexierungstheorie des menschlichen Gedächtnisses wider. Ein LLM (GPT-3.5-turbo) extrahiert offline Open Information Extraction (OpenIE) Triple aus jeder Textstelle und baut einen schemalosen Wissensgraph aus Nominalphrasen-Knoten und relationalen Kanten auf. Ein dichter Retrieval-Encoder fügt Synonymie-Kanten zwischen semantisch ähnlichen Knoten hinzu (Cosinus-Ähnlichkeit > 0,8). Zum Abfragezeitpunkt extrahiert das System benannte Entitäten aus der Abfrage, startet eine Personalized PageRank (PPR) Propagation von diesen Knoten aus und rankt Textstellen durch Aggregation der PPR-Wahrscheinlichkeiten über deren enthaltene Knoten. Eine Gewichtung der „Knotenspezifität“ – der Kehrwert der Anzahl der Textstellen, in denen ein Knoten vorkommt – fungiert als graph-natives IDF.
Kernideen
- Graph-natives IDF: Seltene Knoten in der PPR-Propagation stärker zu gewichten, ist die Erkenntnis, die das System zum Funktionieren bringt. Ohne sie würden allgemeine Entitäten wie „Unternehmen“ oder „der/die/das“ das Retrieval dominieren. Ablationsstudien zeigen, dass das Entfernen der Knotenspezifität den MuSiQue Recall@2 von 40,9 auf 37,6 senkt.
- Einzelschritt schlägt Iteration: HippoRAG ohne Iteration erreicht einen vergleichbaren Recall wie IRCoT (das mehrere Retrieval-Runden verschachtelt mit Chain-of-Thought-Reasoning durchführt), ist aber zum Abfragezeitpunkt 10–30-mal günstiger und 6–13-mal schneller.
- Massive Gewinne bei 2WikiMultiHopQA: Der Recall@5 verbessert sich von 68,2 (ColBERTv2) auf 89,1 (HippoRAG). Die Lücke spiegelt exakt die Pfadfindungsstruktur der Fragen dieses Benchmarks wider.
- Moderate Gewinne bei MuSiQue: Der Recall@5 verbessert sich nur von 49,2 auf 51,9. MuSiQue ist schwieriger; viele Fragen erfordern Schlussfolgerungen, die die Graphtopologie nicht vollständig erfassen kann.
- HotpotQA-Rückschritt: HippoRAG schneidet bei HotpotQA schlechter ab als ColBERTv2 (Recall@2: 60,5 vs. 64,7). HotpotQA-Fragen sind im Allgemeinen über zwei eng verwandte Textstellen lösbar, was eher die Stärken des Embedding-Retrievals als die der Graph-Traversierung ausspielt.
- OpenIE-Qualität ist der Engpass: Ablationsstudien zeigen, dass die Verwendung von Llama-3-70B für die Extraktion die Leistung aufgrund von Formatierungsfehlern verschlechterte, während Llama-3-8B mit GPT-3.5-turbo konkurrenzfähig war. Standard-Extraktion ist fragil.
Was Bestand hat – und was nicht
Das Ergebnis ist real: Bei 2WikiMultiHopQA, das speziell auf Multi-Hop-Ketten ausgelegt ist, übertrifft die Graph-Traversierung das dichte Retrieval bei weitem. Der PPR-Ansatz ist elegant – die Propagation bei Abfrage-Entitäten zu starten und den Graph die Nachbarschaft füllen zu lassen, ist ein prinzipieller Weg, um die distributionelle Diskrepanz zwischen Abfrage und unterstützenden Textstellen zu handhaben.
Weniger überzeugend finde ich das neurobiologische Framing. Das Paper zieht eine Analogie zwischen PageRank und der CA3-Aktivität im Hippocampus und zitiert eine kognitionswissenschaftliche Studie, die eine Korrelation zwischen der menschlichen Wort-Recall-Wahrscheinlichkeit und PageRank-Scores fand. Das ist eine korrelative Beobachtung aus der Psycholinguistik, keine Ableitung. PPR wurde nicht aus der Physiologie des Hippocampus heraus entwickelt – dies „neurobiologisch inspiriert“ zu nennen, ist mehr Branding als Mechanismus.
Auch die Effizienzbehauptung verdient eine genauere Prüfung. Einzelschritt-HippoRAG ist online 10–30-mal günstiger als IRCoT – aber die Kosten für die Offline-Indexierung (Ausführen von GPT-3.5-turbo zur Extraktion von OpenIE-Triplen aus jedem Dokument) sind im Vorfeld beträchtlich. Für einen Korpus, der sich häufig ändert, fallen diese Kosten bei Aktualisierungen erneut an. Das Paper macht keine Angaben zu den Gesamt-Indexierungskosten.
Schließlich sind die Benchmarks mittelgroß: 6.000–11.000 Textstellen und unter 100.000 Graphknoten. Die Autoren listen Skalierbarkeit explizit als offene Frage auf. Ob PPR bei Hunderttausenden von Ledger-Einträgen über Jahrzehnte hinweg Bestand hat, ist nicht validiert.
Warum das für Finanz-KI wichtig ist
Ein Beancount-Ledger ist eine Kette von Fakten: Kontenhierarchien, Transaktionsreferenzen, Regel-Querverweise, Budgetzuweisungen. Eine Frage wie „Welche Ausgaben von 2022 fallen unter dieselbe Budgetkategorie wie Rechnung #INV-2019-0042?“ erfordert das Durchlaufen des Graphen aus Konten, Transaktionen und Kategorien – genau die Pfadfindungsaufgabe, bei der Standard-RAG versagt.
Das Indexierungsdesign von HippoRAG lässt sich natürlich übertragen: Entitäts-Relations-Triple aus Ledger-Einträgen extrahieren (Konto, Betrag, Gegenpartei, Regel), einen Graphen aufbauen und dann PPR starten, das bei den Abfrage-Entitäten ansetzt. Die Gewichtung der Knotenspezifität würde generische Knoten wie „Ausgaben“ oder „Aktiva“ natürlich abwerten und seltene Kreditornamen oder Kontocodes aufwerten, was genau das ist, was man möchte.
Der praktische Blocker für Beancount sind die Kosten für inkrementelle Aktualisierungen. Jede neue Transaktion fügt Knoten und Kanten hinzu; das erneute Ausführen der OpenIE-Extraktion für neue Einträge ist machbar, aber die PPR-Komplexität skaliert mit der Graphgröße. Das HippoRAG-2-Follow-up (arXiv:2502.14802) behauptet eine weitere Verbesserung von 7 % bei assoziativen Aufgaben, aber die Skalierbarkeitsfrage bleibt offen. Für ein Ledger mit Millionen von Transaktionen ist dies das technische Problem, das gelöst werden müsste, bevor man diesen Ansatz einsetzt.
Was man als Nächstes lesen sollte
- GraphRAG (Edge et al., arXiv:2404.16130) – Microsofts Alternative, die Graph-Communities zusammenfasst, anstatt PPR auszuführen; besser für breite thematische Fragen und ein nützlicher Kontrast zum Entitätsketten-Ansatz von HippoRAG.
- RAPTOR (Sarthi et al., arXiv:2401.18059) – rekursive abstraktive Baumorganisation für RAG; HippoRAG schlägt es in Multi-Hop-Benchmarks, aber RAPTOR könnte Aufgaben zur weitreichenden Zusammenfassung besser bewältigen, bei denen Graph-Traversierung nicht der richtige Ansatz ist.
- IRCoT (Trivedi et al., arXiv:2212.10509) – die iterative Retrieval-Baseline, die HippoRAG zu geringeren Kosten erreichen will; lesenswert, um zu verstehen, womit die 10–30-fache Effizienzbehauptung tatsächlich verglichen wird.
