Перейти к контенту

HippoRAG: Долговременная память для LLM, вдохновленная нейробиологией

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

HippoRAG, представленный на NeurIPS 2024, — это фреймворк для генерации с дополнением выборкой (RAG), который использует граф знаний и персонализированный PageRank, имитируя то, как человеческий гиппокамп индексирует долговременные воспоминания. Я изучаю эту работу, так как основная проблема, которую она решает — поиск информации, распределенной по многим документам и связанной только цепочками фактов — это именно та задача, с которой сталкивается агент Beancount при ответах на вопросы о многолетней истории учетных книг (ledger).

Статья

2026-05-07-hipporag-neurobiologically-inspired-long-term-memory-llms

Хименес Гутьеррес, Шу, Гу, Ясунага и Су выявляют структурный недостаток стандартного RAG: если фрагменты текста, содержащие ответ на вопрос, не имеют общих терминов с самим запросом, поиск на основе эмбеддингов просто не найдет их. Они называют это проблемой «поиска пути» (path-finding problem) — необходимо пройти по цепочке сущностей, а не просто сопоставить строку запроса с вектором документа.

Их решение, HippoRAG, отражает теорию индексации гиппокампа в человеческой памяти. LLM (GPT-3.5-turbo) извлекает триплеты в формате OpenIE (открытое извлечение информации) из каждого фрагмента текста в автономном режиме, создавая бессхемный граф знаний из узлов-именных групп и ребер-отношений. Кодировщик плотного поиска (dense retrieval encoder) добавляет ребра синонимии между семантически похожими узлами (косинусное сходство > 0,8). При выполнении запроса система извлекает именованные сущности из запроса, запускает распространение персонализированного PageRank (PPR) от этих узлов и ранжирует фрагменты текста, агрегируя вероятности PPR по их узлам. Вес «специфичности узла» — обратная величина количеству фрагментов, в которых появляется узел — функционирует как графовый аналог IDF.

Ключевые идеи

  • Graph-native IDF: более высокий вес редких узлов при распространении PPR — это именно то озарение, благодаря которому система работает. Без этого общие сущности, такие как «компания» или «артикль», доминировали бы в результатах поиска. Абляционные исследования показывают, что удаление специфичности узлов снижает Recall@2 на MuSiQue с 40,9 до 37,6.
  • Одноэтапный поиск лучше итеративного: HippoRAG без итераций достигает сопоставимого качества поиска с IRCoT (который выполняет несколько раундов поиска, перемежающихся с рассуждениями в стиле Chain-of-Thought), при этом работая в 10–30 раз дешевле и в 6–13 раз быстрее на этапе выполнения запроса.
  • Огромный прирост на 2WikiMultiHopQA: Recall@5 улучшился с 68,2 (ColBERTv2) до 89,1 (HippoRAG). Этот разрыв точно отражает структуру вопросов данного бенчмарка, требующую поиска пути.
  • Скромный прирост на MuSiQue: Recall@5 вырос всего с 49,2 до 51,9. MuSiQue сложнее; многие вопросы требуют рассуждений, которые топология графа не может полностью охватить.
  • Регрессия на HotpotQA: HippoRAG уступает ColBERTv2 на HotpotQA (Recall@2: 60,5 против 64,7). Вопросы HotpotQA обычно решаются с помощью двух тесно связанных фрагментов, что является сильной стороной поиска по эмбеддингам, а не обхода графа.
  • Качество OpenIE — узкое место: исследования показывают, что использование Llama-3-70B для извлечения ухудшило производительность из-за ошибок форматирования, в то время как Llama-3-8B была конкурентоспособна с GPT-3.5-turbo. Готовые решения для извлечения информации пока нестабильны.

Что подтверждается, а что — нет

Результат реален: на 2WikiMultiHopQA, который специально разработан для многоходовых цепочек, обход графа значительно превосходит плотный поиск. Подход с PPR элегантен — запуск распространения от сущностей запроса и заполнение окрестностей графом является обоснованным способом решения проблемы несоответствия распределений между запросом и подтверждающими фрагментами.

Менее убедительной мне кажется нейробиологическая аргументация. В статье проводится аналогия между PageRank и активностью области CA3 гиппокампа со ссылкой на когнитивное исследование, которое выявило корреляцию между вероятностью припоминания слов человеком и показателями PageRank. Это корреляционное наблюдение из психолингвистики, а не научный вывод. PPR не был разработан на основе физиологии гиппокампа — название «вдохновленный нейробиологией» здесь скорее маркетинг, чем механизм.

Заявление об эффективности также заслуживает пристального внимания. Одноэтапный HippoRAG в 10–30 раз дешевле в режиме реального времени, чем IRCoT, но затраты на автономную индексацию (запуск GPT-3.5-turbo для извлечения триплетов OpenIE из каждого документа) являются предварительными и значительными. Для корпуса, который часто меняется, эти расходы возникают снова при каждом обновлении. В статье не сообщается общая стоимость индексации.

Наконец, бенчмарки имеют средний масштаб: от 6 до 11 тысяч фрагментов и менее 100 тысяч узлов графа. Авторы прямо указывают масштабируемость как открытый вопрос. Будет ли PPR работать на сотнях тысяч записей в учетных книгах, охватывающих десятилетия, пока не подтверждено.

Почему это важно для ИИ в сфере финансов

Учетная книга Beancount — это цепочка фактов: иерархии счетов, ссылки на транзакции, перекрестные ссылки на правила, распределение бюджета. Вопрос вида «какие расходы 2022 года относятся к той же категории бюджета, что и счет №INV-2019-0042?» требует обхода графа счетов, транзакций и категорий — именно та задача поиска пути, где стандартный RAG терпит неудачу.

Дизайн индексации HippoRAG ложится на эту задачу естественным образом: извлечение триплетов «сущность-отношение» из записей журнала (счет, сумма, контрагент, правило), построение графа и запуск PPR от сущностей запроса. Весовые коэффициенты специфичности узлов будут естественным образом понижать вес общих узлов, таких как «расходы» (expenses) или «активы» (assets), и повышать вес редких имен поставщиков или кодов счетов, что как раз и требуется.

Практическим препятствием для Beancount является стоимость инкрементального обновления. Каждая новая транзакция добавляет узлы и ребра; повторное извлечение OpenIE для новых записей вполне реально, но сложность PPR растет вместе с размером графа. В продолжении HippoRAG 2 (arXiv:2502.14802) заявляется о дальнейшем улучшении на 7% в ассоциативных задачах, но вопрос масштабируемости остается открытым. Для книги с миллионами транзакций это инженерная проблема, которую необходимо решить перед внедрением такого подхода.

Что почитать дальше

  • GraphRAG (Edge et al., arXiv:2404.16130) — альтернатива от Microsoft, которая суммирует сообщества в графе, а не запускает PPR; лучше подходит для широких тематических вопросов и служит полезным контрастом к подходу HippoRAG с цепочками сущностей.
  • RAPTOR (Sarthi et al., arXiv:2401.18059) — рекурсивная абстрактивная древовидная организация для RAG; HippoRAG побеждает его на многоходовых бенчмарках, но RAPTOR может лучше справляться с задачами долгосрочного обобщения, где обход графа не является подходящим методом.
  • IRCoT (Trivedi et al., arXiv:2212.10509) — базовый уровень итеративного поиска, с которым HippoRAG сравнивается по эффективности; стоит прочитать, чтобы понять, с чем именно сравнивается утверждение о 10–30-кратной экономии.