HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM
HippoRAG, publikovaný na NeurIPS 2024, je rámec pre generovanie rozšírené o vyhľadávanie, ktorý využíva graf znalostí a Personalizovaný PageRank na napodobnenie toho, ako ľudský hipokampus indexuje dlhodobé spomienky. Čítam ho preto, lebo jadro problému, ktorý rieši – vyhľadávanie informácií distribuovaných v mnohých dokumentoch a prepojených len cez reťazce faktov – je presne ten istý problém, ktorému čelí agent Beancount pri odpovedaní na otázky o viacročnej histórii účtovných kníh.
Práca
Jiménez Gutiérrez, Shu, Gu, Yasunaga a Su identifikujú štrukturálne zlyhanie v štandardnom RAG: ak pasáže, ktoré odpovedajú na otázku, nezdieľajú žiadne termíny so samotným dopytom, vyhľadávanie založené na embeddingoch ich jednoducho nenájde. Tento problém nazývajú hľadanie cesty (path-finding) – potrebujete prejsť reťazcom entít, nielen porovnať reťazec dopytu s vektorom dokumentu.
Ich riešenie, HippoRAG, zrkadlí teóriu hipokampálneho indexovania ľudskej pamäte. LLM (GPT-3.5-turbo) extrahuje trojice otvorenej extrakcie informácií (OpenIE) z každej pasáže offline, čím buduje bezschémový graf znalostí z uzlov podstatných mien a relačných hrán. Enkodér pre husté vyhľadávanie pridáva hrany synonymie medzi sémanticky podobnými uzlami (kosinová podobnosť > 0,8). V čase dopytu systém extrahuje pomenované entity z dopytu, spustí propagáciu Personalizovaného PageRanku (PPR) z týchto uzlov a zoradí pasáže agregovaním pravdepodobností PPR cez ich členské uzly. Váha "špecificity uzla" – inverzná hodnota počtu pasáží, v ktorých sa uzol objavuje – funguje ako grafovo-natívny IDF.
Kľúčové myšlienky
- Grafovo-natívny IDF: silnejšie váženie vzácnych uzlov v propagácii PPR je poznatok, vďaka ktorému systém funguje. Bez neho by vyhľadávaniu dominovali bežné entity ako "spoločnosť" alebo "ten". Ablácie ukazujú, že odstránenie špecificity uzla znižuje MuSiQue Recall@2 zo 40,9 na 37,6.
- Jeden krok poráža iteráciu: HippoRAG bez iterácie dosahuje porovnateľný recall ako IRCoT (ktorý spúšťa viacero kôl vyhľadávania preložených s uvažovaním cez reťazec myšlienok), pričom je v čase dopytu 10–30× lacnejší a 6–13× rýchlejší.
- Masívne zisky na 2WikiMultiHopQA: Recall@5 sa zlepšuje zo 68,2 (ColBERTv2) na 89,1 (HippoRAG). Tento rozdiel presne odráža štruktúru hľadania cesty v otázkach tohto benchmarku.
- Mierne zisky na MuSiQue: Recall@5 sa zlepšuje len zo 49,2 na 51,9. MuSiQue je náročnejší; mnohé otázky si vyžadujú uvažovanie, ktoré topológia grafu nedokáže plne zachytiť.
- Regresia na HotpotQA: HippoRAG zaostáva za ColBERTv2 na HotpotQA (Recall@2: 60,5 oproti 64,7). Otázky HotpotQA sú vo všeobecnosti riešiteľné z dvoch úzko súvisiacich pasáží, čo nahráva silným stránkam vyhľadávania pomocou embeddingov skôr než prechádzaniu grafom.
- Kvalita OpenIE je úzkym hrdlom: ablácie ukazujú, že použitie Llama-3-70B na extrakciu zhoršilo výkon kvôli chybám vo formátovaní, zatiaľ čo Llama-3-8B bola konkurencieschopná s GPT-3.5-turbo. Štandardná extrakcia je krehká.
Čo obstojí — a čo nie
Výsledok je reálny: na 2WikiMultiHopQA, ktorý je špecificky navrhnutý okolo viacskokových (multi-hop) reťazcov, prechádzanie grafom výrazne prekonáva husté vyhľadávanie. Prístup PPR je elegantný – spustenie propagácie na entitách dopytu a nechanie grafu vyplniť okolie je principiálny spôsob, ako zvládnuť distribučný nesúlad medzi dopytom a podpornými pasážami.
Menej presvedčivé sa mi zdá neurobiologické rámcovanie. Práca vykresľuje analógiu medzi PageRankom a aktivitou hipokampálnej oblasti CA3, pričom cituje kognitívnu štúdiu, ktorá zistila koreláciu medzi pravdepodobnosťou vybavenia si slov u ľudí a skóre PageRank. To je korelačné pozorovanie z psycholingvistiky, nie odvodenie. PPR nebol navrhnutý na základe fyziológie hipokampu – označenie za "neurobiologicky inšpirovaný" je skôr branding než mechanizmus.
Tvrdenie o efektívnosti si tiež zaslúži skúmanie. Jednokrokový HippoRAG je online 10–30× lacnejší ako IRCoT – ale náklady na offline indexovanie (spustenie GPT-3.5-turbo na extrakciu OpenIE trojíc z každého dokumentu) sú zaplatené vopred a sú značné. Pri korpuse, ktorý sa často mení, sa tieto náklady platia pri každej aktualizácii znova. Práca neuvádza celkové náklady na indexovanie.
Nakoniec, benchmarky sú stredného rozsahu: 6 tisíc až 11 tisíc pasáží a menej ako 100 tisíc uzlov grafu. Autori explicitne uvádzajú škálovateľnosť ako otvorenú otázku. Či PPR obstojí pri stovkách tisíc záznamov v účtovnej knihe pokrývajúcich desaťročia, nie je overené.