Перейти до основного вмісту

HippoRAG: нейробіологічно натхненна довгострокова пам'ять для LLM

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

HippoRAG, представлений на NeurIPS 2024, — це фреймворк генерації з доповненим пошуком (RAG), який використовує граф знань та персоналізований PageRank, щоб імітувати те, як людський гіпокамп індексує довгострокові спогади. Я вивчаю цей матеріал, тому що основна проблема, яку він вирішує — пошук інформації, розподіленої за багатьма документами та пов'язаної лише через ланцюжки фактів — це саме та проблема, з якою стикається Beancount-агент, відповідаючи на запитання про багаторічну історію фінансової книги.

Документ

2026-05-07-hipporag-neurobiologically-inspired-long-term-memory-llms

Хіменес Гутьєррес, Шу, Гу, Ясунага та Су ідентифікують структурний збій у стандартному RAG: якщо уривки, що містять відповідь на запитання, не мають спільних термінів із самим запитом, пошук на основі ембеддінгів їх просто не знайде. Вони називають це проблемою пошуку шляху (path-finding) — вам потрібно пройти через ланцюжок сутностей, а не просто зіставити рядок запиту з вектором документа.

Їхнє рішення, HippoRAG, відображає гіпокампальну теорію індексування людської пам'яті. LLM (GPT-3.5-turbo) витягує трійки відкритого вилучення інформації (OpenIE) з кожного уривка в автономному режимі, будуючи безсхемний граф знань із вузлів іменних словосполучень та реляційних ребер. Щільний енкодер пошуку додає ребра синонімії між семантично схожими вузлами (косинусна схожість > 0,8). Під час запиту система витягує іменовані сутності із запиту, запускає поширення персоналізованого PageRank (PPR) від цих вузлів і ранжує уривки, агрегуючи ймовірності PPR у їхніх вузлах-членах. Вага «специфічності вузла» — обернена величина кількості уривків, у яких з'являється вузол — функціонує як графовий аналог IDF.

Ключові ідеї

  • Графовий IDF: надання більшої ваги рідкісним вузлам під час поширення PPR — це саме те рішення, яке змушує систему працювати. Без нього загальні сутності, такі як «компанія» або «the», домінували б у пошуку. Аляційні дослідження показують, що видалення специфічності вузла знижує Recall@2 на MuSiQue з 40,9 до 37,6.
  • Один крок перевершує ітерації: HippoRAG без ітерацій досягає порівнянної повноти пошуку з IRCoT (який запускає кілька раундів пошуку, чергуючи їх із міркуваннями в стилі «ланцюжок думок»), при цьому він у 10–30 разів дешевший і в 6–13 разів швидший під час запиту.
  • Величезний приріст на 2WikiMultiHopQA: Recall@5 покращується з 68,2 (ColBERTv2) до 89,1 (HippoRAG). Цей розрив відображає саме структуру пошуку шляху в питаннях цього бенчмарку.
  • Скромні успіхи на MuSiQue: Recall@5 покращується лише з 49,2 до 51,9. MuSiQue складніший; багато питань потребують міркувань, які топологія графа не може повністю охопити.
  • Регресія на HotpotQA: HippoRAG поступається ColBERTv2 на HotpotQA (Recall@2: 60,5 проти 64,7). Питання HotpotQA загалом можна вирішити за допомогою двох тісно пов'язаних уривків, що грає на руку сильних сторін пошуку за ембеддінгами, а не обходу графа.
  • Якість OpenIE є «вузьким місцем»: аляційні дослідження показують, що використання Llama-3-70B для вилучення погіршило продуктивність через помилки форматування, тоді як Llama-3-8B була конкурентоспроможною з GPT-3.5-turbo. Готові рішення для вилучення інформації є нестабільними.

Що витримує перевірку, а що — ні

Результат реальний: на 2WikiMultiHopQA, який спеціально розроблений навколо багатоходових ланцюжків, обхід графа значно перевершує щільний пошук. Підхід PPR елегантний — запуск поширення від сутностей запиту та дозволення графу заповнити сусідство є обґрунтованим способом обробки невідповідності розподілу між запитом та допоміжними уривками.

Що мені здається менш переконливим, так це нейробіологічне обґрунтування. Документ проводить аналогію між PageRank та активністю області CA3 гіпокампу, посилаючись на когнітивне дослідження, яке виявило кореляцію між ймовірностями пригадування слів людиною та показниками PageRank. Це кореляційне спостереження з психолінгвістики, а не висновок. PPR не був розроблений на основі фізіології гіпокампу — називати це «нейробіологічно натхненним», швидше, маркетинг, ніж механізм.

Твердження про ефективність також заслуговує на ретельну перевірку. Однокроковий HippoRAG у 10–30 разів дешевший в режимі онлайн, ніж IRCoT, але вартість офлайн-індексування (запуск GPT-3.5-turbo для вилучення трійок OpenIE з кожного документа) є значною та сплачується заздалегідь. Для корпусу, який часто змінюється, цю вартість доведеться сплачувати знову при кожному оновленні. У документі не вказана загальна вартість індексування.

Нарешті, бенчмарки мають середній масштаб: 6–11 тис. уривків та менше 100 тис. вузлів графа. Автори чітко вказують масштабованість як відкрите питання. Чи витримає PPR сотні тисяч записів у книгах, що охоплюють десятиліття, поки не перевірено.

Чому це важливо для ШІ у фінансах

Книга Beancount — це ланцюжок фактів: ієрархії рахунків, посилання на транзакції, перехресні посилання на правила, розподіл бюджету. Питання на кшталт «які витрати за 2022 рік підпадають під ту саму категорію бюджету, що й рахунок-фактура #INV-2019-0042?» вимагає проходження графа рахунків, транзакцій та категорій — саме того завдання пошуку шляху, де стандартний RAG зазнає невдачі.

Дизайн індексування HippoRAG відображається природно: вилучайте трійки сутність-зв’язок із записів книги (рахунок, сума, контрагент, правило), будуйте граф, а потім запускайте PPR, починаючи з сутностей запиту. Вага специфічності вузла природним чином знижувала б вагу загальних вузлів, таких як «витрати» або «активи», і підвищувала б вагу рідкісних назв постачальників або кодів рахунків, що саме і потрібно.

Практичною перешкодою для Beancount є вартість інкрементного оновлення. Кожна нова транзакція додає вузли та ребра; повторне вилучення OpenIE для нових записів є посильним завданням, але складність PPR масштабується разом із розміром графа. Продовження HippoRAG 2 (arXiv:2502.14802) заявляє про подальше покращення на 7% в асоціативних завданнях, але питання масштабованості залишається відкритим. Для книги з мільйонами транзакцій це саме та інженерна проблема, яку потрібно було б вирішити перед впровадженням цього підходу.

Що читати далі

  • GraphRAG (Edge et al., arXiv:2404.16130) — альтернатива від Microsoft, яка узагальнює спільноти графів, а не запускає PPR; краще підходить для широких тематичних питань і є корисним контрастом до підходу ланцюжків сутностей HippoRAG.
  • RAPTOR (Sarthi et al., arXiv:2401.18059) — рекурсивна абстрактивна деревоподібна організація для RAG; HippoRAG перевершує її на багатоходових бенчмарках, але RAPTOR може краще справлятися із завданнями довгострокового узагальнення, де обхід графа не є правильним підходом.
  • IRCoT (Trivedi et al., arXiv:2212.10509) — ітеративний базовий рівень пошуку, з яким HippoRAG порівнює себе за нижчої вартості; варто прочитати, щоб зрозуміти, з чим насправді порівнюється твердження про 10–30-кратну ефективність.