HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs
HippoRAG, публикувана на NeurIPS 2024, е рамка за генериране с добавено извличане (retrieval-augmented generation), която използва граф на знанието и Personalized PageRank, за да имитира начина, по който човешкият хипокамп индексира дългосрочните спомени. Чета я, защото основният проблем, който адресира — извличане на информация, разпределена в множество документи и свързана само чрез вериги от факти — е точно проблемът, пред който е изправен един Beancount агент при отговаряне на въпроси относно многогодишни истории на счетоводни регистри.
Докладът
Jiménez Gutiérrez, Shu, Gu, Yasunaga и Su идентифицират структурен отказ в стандартните RAG системи: ако пасажите, които отговарят на даден въпрос, не споделят никакви термини със самата заявка, извличането чрез векторни вграждания (embeddings) просто няма да ги намери. Те наричат това проблем на намирането на път (path-finding) — трябва да преминете през верига от обекти, а не просто да съпоставите низ от заявка с векторен документ.
Техният модел, HippoRAG, отразява теорията за хипокампалното индексиране на човешката памет. Един LLM (GPT-3.5-turbo) извлича тройки чрез отворено извличане на информация (OpenIE) от всеки пасаж офлайн, изграждайки граф на знанието без предварителна схема, състоящ се от възли (фрази) и релационни ребра. Гъст енкодер за извличане добавя ребра за синонимия между семантично сходни възли (косинусова близост > 0.8). При заявка системата извлича именувани обекти от нея, задава начало на разпространение на Personalized PageRank (PPR) от тези възли и класира пасажите чрез агрегиране на PPR вероятностите в техните членуващи възли. Тежестта за „специфичност на възела“ — реципрочната стойност на броя пасажи, в които се появява даден възел — функционира като присъщ на графа IDF.
Ключови идеи
- Графово-ориентиран IDF: по-голямото тегло на редките възли при PPR разпространението е идеята, която прави системата работеща. Без нея общи обекти като „компания“ или „the“ биха доминирали извличането. Аблациите показват, че премахването на специфичността на възлите намалява Recall@2 при MuSiQue от 40,9 на 37,6.
- Една стъпка превъзхожда итерацията: HippoRAG без итерация постига сравнима пълнота (recall) с IRCoT (който изпълнява множество кръгове на извличане, преплетени с разсъждения по верига от мисли), като същевременно е 10–30 пъти по-евтин и 6–13 пъти по-бърз по време на заявка.
- Огромни подобрения при 2WikiMultiHopQA: Recall@5 скача от 68,2 (ColBERTv2) на 89,1 (HippoRAG). Разликата отразява точно структурата за намиране на път в заложените въпроси на този бенчмарк.
- Скромни печалби при MuSiQue: Recall@5 се подобрява само от 49,2 на 51,9. MuSiQue е по-труден; много въпроси изискват разсъждения, които топологията на граф а не може напълно да улови.
- Регресия при HotpotQA: HippoRAG се представя по-слабо от ColBERTv2 при HotpotQA (Recall@2: 60,5 срещу 64,7). Въпросите в HotpotQA обикновено са решими от два тясно свързани пасажа, което е силна страна на извличането чрез векторни вграждания, а не на обхождането на графи.
- Качеството на OpenIE е тясното място: аблациите показват, че използването на Llama-3-70B за извличане влошава производителността поради грешки във форматирането, докато Llama-3-8B е конкурентен на GPT-3.5-turbo. Готовите решения за извличане са крехки.
Какво е устойчиво и какво не
Резултатът е реален: при 2WikiMultiHopQA, който е специално проектиран около многостъпкови вериги, обхождането на графи превъзхожда значително гъстото извличане. Подходът с PPR е елегантен — задаването на начало на разпространението при обектите от заявката и оставянето на графа да попълни съседството е принципен нач ин за справяне с разминаването в разпределението между заявката и подкрепящите пасажи.
Това, което намирам за по-малко убедително, е невробиологичната рамка. Докладът прави аналогия между PageRank и активността в областта CA3 на хипокампа, цитирайки когнитивно изследване, което открива корелация между вероятностите за припомняне на думи от хората и резултатите на PageRank. Това е корелационно наблюдение от психолингвистиката, а не деривация. PPR не е проектиран въз основа на физиологията на хипокампа — наричането на това „невробиологично вдъхновено“ е по-скоро брандинг, отколкото механизъм.
Твърдението за ефективност също заслужава внимание. Едностъпковият HippoRAG е 10–30 пъти по-евтин онлайн от IRCoT — но цената за офлайн индексиране (използване на GPT-3.5-turbo за извличане на OpenIE тройки от всеки документ) е предварителна и значителна. За корпус, който се променя често, тази цена се плаща отново при актуализации. Докладът не съобщава общата цена за индексиране.
Накрая, бенчмарковете са в среден мащаб: 6 000–11 000 пасажа и под 100 000 графови възела. Авторите изрично посочват мащабируемостта като отворен въпрос. Дали PPR ще издържи при стотици хиляди записи в счетоводни регистри, обхващащи десетилетия, остава невалидирано.
Защо това е важно за финансовия AI
Един Beancount регистър е верига от факти: йерархии на сметки, референции за транзакции, кръстосани препратки към правила, разпределения на бюджети. Въпрос като „кои разходи от 2022 г. попадат в същата бюджетна категория като фактура #INV-2019-0042?“ изисква обхождане на графа от сметки, транзакции и категории — точно задачата за намиране на път, при която стандартният RAG се проваля.
Дизайнът на индексиране на HippoRAG се пренася естествено: извличат се тройки обект-релация от записите в регистъра (сметка, сума, контрагент, правило), изгражда се граф, след което се изпълнява PPR, стартиран от обектите в заявката. Тежестта за специфичност на възлите естествено би намалила тежестта на генерични възли като „разходи“ или „активи“ и би увеличила тежестта на редки имена на доставчици или кодове на сметки, което е точно това, което е необходимо.
Практическата пречка за Beancount е цената за инкрементална актуализация. Всяка нова транзакция добавя възли и ребра; повторното изпълнение на OpenIE извличане върху нови записи е изпълнимо, но сложността на PPR се мащабира с размера на графа. Продължението HippoRAG 2 (arXiv:2502.14802) твърди за още 7% подобрение в асоциативните задачи, но въпросът за мащабируемостта остава отворен. За регистър с милиони транзакции това е инженерният проблем, който трябва да бъде решен преди прилагането на този подход.
Какво да прочетете след това
- GraphRAG (Edge et al., arXiv:2404.16130) — алтернативата на Microsoft, която обобщава общности в графа, вместо да изпълнява PPR; по-добра за широки тематични въпроси и полезен контраст на подхода на HippoRAG с вериги от обекти.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — рекурсивна абстрактна дървовидна организация за RAG; HippoRAG го побеждава в многостъпкови бенчмаркове, но RAPTOR може да се справя по-добре със задачи за обобщаване на дълги разстояния, където обхождането на графа не е правилната рамка.
- IRCoT (Trivedi et al., arXiv:2212.10509) — итеративната база за извличане, с която HippoRAG твърди, че се изравнява при по-ниски разходи; заслужава да се прочете, за да се разбере с какво всъщност се прави сравнението за 10–30 пъти по-висока ефективност.