Prejsť na hlavný obsah

HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

HippoRAG, publikovaný na NeurIPS 2024, je rámec pre generovanie rozšírené o vyhľadávanie, ktorý využíva graf znalostí a Personalizovaný PageRank na napodobnenie toho, ako ľudský hipokampus indexuje dlhodobé spomienky. Čítam ho preto, lebo jadro problému, ktorý rieši – vyhľadávanie informácií distribuovaných v mnohých dokumentoch a prepojených len cez reťazce faktov – je presne ten istý problém, ktorému čelí agent Beancount pri odpovedaní na otázky o viacročnej histórii účtovných kníh.

Práca

2026-05-07-hipporag-neurobiologicky-inspirovana-dlhodoba-pamat-llm

Jiménez Gutiérrez, Shu, Gu, Yasunaga a Su identifikujú štrukturálne zlyhanie v štandardnom RAG: ak pasáže, ktoré odpovedajú na otázku, nezdieľajú žiadne termíny so samotným dopytom, vyhľadávanie založené na embeddingoch ich jednoducho nenájde. Tento problém nazývajú hľadanie cesty (path-finding) – potrebujete prejsť reťazcom entít, nielen porovnať reťazec dopytu s vektorom dokumentu.

Ich riešenie, HippoRAG, zrkadlí teóriu hipokampálneho indexovania ľudskej pamäte. LLM (GPT-3.5-turbo) extrahuje trojice otvorenej extrakcie informácií (OpenIE) z každej pasáže offline, čím buduje bezschémový graf znalostí z uzlov podstatných mien a relačných hrán. Enkodér pre husté vyhľadávanie pridáva hrany synonymie medzi sémanticky podobnými uzlami (kosinová podobnosť > 0,8). V čase dopytu systém extrahuje pomenované entity z dopytu, spustí propagáciu Personalizovaného PageRanku (PPR) z týchto uzlov a zoradí pasáže agregovaním pravdepodobností PPR cez ich členské uzly. Váha "špecificity uzla" – inverzná hodnota počtu pasáží, v ktorých sa uzol objavuje – funguje ako grafovo-natívny IDF.

Kľúčové myšlienky

  • Grafovo-natívny IDF: silnejšie váženie vzácnych uzlov v propagácii PPR je poznatok, vďaka ktorému systém funguje. Bez neho by vyhľadávaniu dominovali bežné entity ako "spoločnosť" alebo "ten". Ablácie ukazujú, že odstránenie špecificity uzla znižuje MuSiQue Recall@2 zo 40,9 na 37,6.
  • Jeden krok poráža iteráciu: HippoRAG bez iterácie dosahuje porovnateľný recall ako IRCoT (ktorý spúšťa viacero kôl vyhľadávania preložených s uvažovaním cez reťazec myšlienok), pričom je v čase dopytu 10–30× lacnejší a 6–13× rýchlejší.
  • Masívne zisky na 2WikiMultiHopQA: Recall@5 sa zlepšuje zo 68,2 (ColBERTv2) na 89,1 (HippoRAG). Tento rozdiel presne odráža štruktúru hľadania cesty v otázkach tohto benchmarku.
  • Mierne zisky na MuSiQue: Recall@5 sa zlepšuje len zo 49,2 na 51,9. MuSiQue je náročnejší; mnohé otázky si vyžadujú uvažovanie, ktoré topológia grafu nedokáže plne zachytiť.
  • Regresia na HotpotQA: HippoRAG zaostáva za ColBERTv2 na HotpotQA (Recall@2: 60,5 oproti 64,7). Otázky HotpotQA sú vo všeobecnosti riešiteľné z dvoch úzko súvisiacich pasáží, čo nahráva silným stránkam vyhľadávania pomocou embeddingov skôr než prechádzaniu grafom.
  • Kvalita OpenIE je úzkym hrdlom: ablácie ukazujú, že použitie Llama-3-70B na extrakciu zhoršilo výkon kvôli chybám vo formátovaní, zatiaľ čo Llama-3-8B bola konkurencieschopná s GPT-3.5-turbo. Štandardná extrakcia je krehká.

Čo obstojí — a čo nie

Výsledok je reálny: na 2WikiMultiHopQA, ktorý je špecificky navrhnutý okolo viacskokových (multi-hop) reťazcov, prechádzanie grafom výrazne prekonáva husté vyhľadávanie. Prístup PPR je elegantný – spustenie propagácie na entitách dopytu a nechanie grafu vyplniť okolie je principiálny spôsob, ako zvládnuť distribučný nesúlad medzi dopytom a podpornými pasážami.

Menej presvedčivé sa mi zdá neurobiologické rámcovanie. Práca vykresľuje analógiu medzi PageRankom a aktivitou hipokampálnej oblasti CA3, pričom cituje kognitívnu štúdiu, ktorá zistila koreláciu medzi pravdepodobnosťou vybavenia si slov u ľudí a skóre PageRank. To je korelačné pozorovanie z psycholingvistiky, nie odvodenie. PPR nebol navrhnutý na základe fyziológie hipokampu – označenie za "neurobiologicky inšpirovaný" je skôr branding než mechanizmus.

Tvrdenie o efektívnosti si tiež zaslúži skúmanie. Jednokrokový HippoRAG je online 10–30× lacnejší ako IRCoT – ale náklady na offline indexovanie (spustenie GPT-3.5-turbo na extrakciu OpenIE trojíc z každého dokumentu) sú zaplatené vopred a sú značné. Pri korpuse, ktorý sa často mení, sa tieto náklady platia pri každej aktualizácii znova. Práca neuvádza celkové náklady na indexovanie.

Nakoniec, benchmarky sú stredného rozsahu: 6 tisíc až 11 tisíc pasáží a menej ako 100 tisíc uzlov grafu. Autori explicitne uvádzajú škálovateľnosť ako otvorenú otázku. Či PPR obstojí pri stovkách tisíc záznamov v účtovnej knihe pokrývajúcich desaťročia, nie je overené.

Prečo je to dôležité pre finančnú AI

Účtovná kniha Beancount je reťazcom faktov: hierarchie účtov, referencie transakcií, krížové odkazy na pravidlá, alokácie rozpočtu. Otázka typu "ktoré výdavky z roku 2022 spadajú do rovnakej kategórie rozpočtu ako faktúra #INV-2019-0042?" si vyžaduje prechod grafom účtov, transakcií a kategórií – presne tú úlohu hľadania cesty, v ktorej štandardný RAG zlyháva.

Dizajn indexovania HippoRAG sa mapuje prirodzene: extrahujte trojice entita-vzťah z položiek účtovnej knihy (účet, suma, protistrana, pravidlo), zostavte graf a potom spustite PPR spustený na entitách dopytu. Váženie špecificity uzlov by prirodzene znížilo váhu všeobecných uzlov ako "výdavky" alebo "aktíva" a zvýšilo váhu vzácnych mien dodávateľov alebo kódov účtov, čo je presne to, čo potrebujete.

Praktickou prekážkou pre Beancount sú náklady na prírastkovú aktualizáciu. Každá nová transakcia pridáva uzly a hrany; opätovné spustenie extrakcie OpenIE na nových záznamoch je zvládnuteľné, ale komplexnosť PPR sa škáluje s veľkosťou grafu. Nadväzujúca práca HippoRAG 2 (arXiv:2502.14802) uvádza ďalšie 7 % zlepšenie v asociatívnych úlohách, ale otázka škálovateľnosti zostáva otvorená. Pre účtovnú knihu s miliónmi transakcií je toto inžiniersky problém, ktorý by bolo potrebné vyriešiť pred nasadením tohto prístupu.

Čo čítať ďalej

  • GraphRAG (Edge et al., arXiv:2404.16130) — alternatíva od Microsoftu, ktorá skôr sumarizuje komunity grafov než spúšťa PPR; lepšia pre široké tematické otázky a užitočný kontrast k prístupu HippoRAG založenému na reťazci entít.
  • RAPTOR (Sarthi et al., arXiv:2401.18059) — rekurzívna abstraktívna stromová organizácia pre RAG; HippoRAG ho poráža v benchmarkoch s viacerými skokmi, ale RAPTOR môže lepšie zvládať úlohy sumarizácie dlhého rozsahu, kde prechádzanie grafom nie je správnym rámcom.
  • IRCoT (Trivedi et al., arXiv:2212.10509) — iteračný základ vyhľadávania, ktorému sa HippoRAG podľa svojich tvrdení vyrovná pri nižších nákladoch; stojí za prečítanie, aby ste pochopili, s čím sa vlastne porovnáva tvrdenie o 10–30-násobnej efektivite.