پرش به محتوای اصلی

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

HippoRAG که در کنفرانس NeurIPS 2024 منتشر شده است، یک چارچوب تولید تقویت‌شده با بازیابی (RAG) است که از یک گراف دانش و رتبه صفحه شخصی‌سازی شده (PPR) برای شبیه‌سازی نحوه نمایه‌گذاری خاطرات بلندمدت در هیپوکامپ انسان استفاده می‌کند. من این مقاله را مطالعه می‌کنم زیرا مشکل اصلی که به آن می‌پردازد — یعنی بازیابی اطلاعات توزیع شده در مستندات متعدد که تنها از طریق زنجیره‌ای از حقایق به هم مرتبط هستند — دقیقاً همان مشکلی است که یک عامل Beancount هنگام پاسخ دادن به سوالات درباره تاریخچه دفتر کل چندین ساله با آن مواجه می‌شود.

مقاله

2026-05-07-hipporag-neurobiologically-inspired-long-term-memory-llms

خیمنز گوتیرز، شو، گو، یاسوناگا و سو یک حالت شکست ساختاری را در RAG استاندارد شناسایی کرده‌اند: اگر بخش‌هایی که به یک سوال پاسخ می‌دهند هیچ عبارت مشترکی با خود پرس‌وجو نداشته باشند، بازیابی مبتنی بر جاسازی (Embedding) به سادگی آن‌ها را پیدا نخواهد کرد. آن‌ها این موضوع را مشکل «مسیر‌یابی» (path-finding) می‌نامند — شما باید زنجیره‌ای از موجودیت‌ها را طی کنید، نه اینکه فقط یک رشته پرس‌وجو را با بردار سند مطابقت دهید.

راهکار آن‌ها، یعنی HippoRAG، تئوری نمایه‌گذاری هیپوکامپی حافظه انسان را منعکس می‌کند. یک مدل زبانی بزرگ (GPT-3.5-turbo) سه‌تایی‌های استخراج اطلاعات باز (OpenIE) را به صورت آفلاین از هر بخش استخراج کرده و یک گراف دانش بدون طرح‌واره (schemaless) از گره‌های عبارت اسمی و یال‌های رابطه‌ای می‌سازد. یک رمزگذار بازیابی متراکم، یال‌های مترادف را بین گره‌هایی که از نظر معنایی مشابه هستند (شباهت کسینوسی > ۰.۸) اضافه می‌کند. در زمان پرس‌وجو، سیستم موجودیت‌های نام‌گذاری شده را از پرس‌وجو استخراج کرده، انتشار رتبه صفحه شخصی‌سازی شده (PPR) را از آن گره‌ها آغاز می‌کند و بخش‌ها را بر اساس مجموع احتمالات PPR در گره‌های عضو آن‌ها رتبه‌بندی می‌کند. وزن «ویژگی گره» (node specificity) — معکوس تعداد بخش‌هایی که یک گره در آن‌ها ظاهر می‌شود — مانند یک IDF بومی گراف عمل می‌کند.

ایده‌های کلیدی

  • IDF بومی گراف: وزن‌دهی بیشتر به گره‌های کمیاب در انتشار PPR بینشی است که باعث کارکرد سیستم می‌شود. بدون آن، موجودیت‌های رایج مانند «شرکت» یا «the» بر بازیابی غالب می‌شوند. تحلیل‌های کاهشی (Ablations) نشان می‌دهد که حذف ویژگی گره، نرخ بازیابی Recall@2 در MuSiQue را از ۴۰.۹ به ۳۷.۶ کاهش می‌دهد.
  • تک‌مرحله‌ای بهتر از تکراری است: HippoRAG بدون تکرار به نرخ بازیابی مشابه با IRCoT دست می‌یابد (که چندین دور بازیابی را با استدلال زنجیره افکار ترکیب می‌کند)، در حالی که در زمان پرس‌وجو ۱۰ تا ۳۰ برابر ارزان‌تر و ۶ تا ۱۳ برابر سریع‌تر است.
  • دستاورد‌های بزرگ در 2WikiMultiHopQA: نرخ Recall@5 از ۶۸.۲ (ColBERTv2) به ۸۹.۱ (HippoRAG) بهبود یافته است. این شکاف دقیقاً بازتاب‌دهنده ساختار مسیر‌یابی در سوالات این معیار است.
  • دستاورد‌های ناچیز در MuSiQue: نرخ Recall@5 تنها از ۴۹.۲ به ۵۱.۹ بهبود یافته است. MuSiQue دشوارتر است؛ بسیاری از سوالات نیازمند استدلالی هستند که توپولوژی گراف نمی‌تواند به طور کامل آن را پوشش دهد.
  • افت عملکرد در HotpotQA: HippoRAG در HotpotQA عملکرد ضعیف‌تری نسبت به ColBERTv2 دارد (Recall@2: ۶۰.۵ در مقابل ۶۴.۷). سوالات HotpotQA عموماً از طریق دو بخش به هم مرتبط قابل حل هستند که این امر نقطه قوت بازیابی جاسازی است نه پیمایش گراف.
  • کیفیت OpenIE گلوگاه اصلی است: تحلیل‌ها نشان می‌دهد که استفاده از Llama-3-70B برای استخراج، به دلیل خطاهای قالب‌بندی باعث کاهش عملکرد شده است، در حالی که Llama-3-8B توانست با GPT-3.5-turbo رقابت کند. استخراج‌های آماده (Off-the-shelf) شکننده هستند.

چه چیزی تایید می‌شود — و چه چیزی نه

نتیجه واقعی است: در 2WikiMultiHopQA که به طور خاص حول زنجیره‌های چندگانه طراحی شده است، پیمایش گراف با فاصله زیادی از بازیابی متراکم پیشی می‌گیرد. رویکرد PPR ظریف است — آغاز انتشار در موجودیت‌های پرس‌وجو و اجازه دادن به گراف برای پر کردن همسایگی، روشی اصولی برای مدیریت عدم تطابق توزیعی بین پرس‌وجو و بخش‌های پشتیبان است.

آنچه برای من کمتر متقاعدکننده است، قاب‌بندی عصبی-زیستی است. این مقاله شباهتی بین PageRank و فعالیت بخش CA3 هیپوکامپ ترسیم می‌کند و به مطالعه‌ای در علوم شناختی استناد می‌کند که همبستگی بین احتمال بازیابی کلمات توسط انسان و امتیازات PageRank را یافته است. این یک مشاهده همبستگی از روان‌شناسی زبان است، نه یک استخراج مستقیم. PPR بر اساس فیزیولوژی هیپوکامپ طراحی نشده است — نامیدن آن به عنوان «الهام گرفته از علوم اعصاب» بیشتر یک برندینگ است تا مکانیسم.

ادعای کارایی نیز شایسته بررسی است. HippoRAG تک‌مرحله‌ای در حالت آنلاین ۱۰ تا ۳۰ برابر ارزان‌تر از IRCoT است — اما هزینه نمایه‌گذاری آفلاین (اجرای GPT-3.5-turbo برای استخراج سه‌تایی‌های OpenIE از تمام اسناد) هزینه‌ای اولیه و قابل توجه است. برای مجموعه‌ای که مرتباً تغییر می‌کند، این هزینه در هر به‌روزرسانی دوباره پرداخت می‌شود. مقاله هزینه کل نمایه‌گذاری را گزارش نکرده است.

در نهایت، معیارهای ارزیابی در مقیاس متوسط هستند: ۶ هزار تا ۱۱ هزار بخش و زیر ۱۰۰ هزار گره گراف. نویسندگان صراحتاً مقیاس‌پذیری را به عنوان یک سوال باز فهرست کرده‌اند. اینکه آیا PPR در صدها هزار ورودی دفتر کل که چندین دهه را شامل می‌شود دوام می‌آورد یا خیر، هنوز تایید نشده است.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

یک دفتر کل Beancount زنجیره‌ای از حقایق است: سلسله مراتب حساب‌ها، ارجاعات تراکنش، ارجاعات متقابل قوانین و تخصیص بودجه. سوالی مانند «کدام هزینه‌های سال ۲۰۲۲ در همان دسته‌بندی بودجه‌ای فاکتور شماره INV-2019-0042 قرار می‌گیرند؟» نیازمند پیمایش گراف حساب‌ها، تراکنش‌ها و دسته‌بندی‌ها است — دقیقاً همان وظیفه مسیر‌یابی که RAG استاندارد در آن شکست می‌خورد.

طراحی نمایه‌گذاری HippoRAG به طور طبیعی نقشه‌برداری می‌شود: استخراج سه‌تایی‌های موجودیت-رابطه از ورودی‌های دفتر کل (حساب، مبلغ، طرف مقابل، قانون)، ساخت گراف و سپس اجرای PPR که از موجودیت‌های پرس‌وجو آغاز می‌شود. وزن‌دهی ویژگی گره به طور طبیعی گره‌های عمومی مانند «هزینه‌ها» یا «دارایی‌ها» را کم‌وزن و نام‌های نادر فروشندگان یا کدهای حساب را پروزن می‌کند، که دقیقاً همان چیزی است که شما می‌خواهید.

مانع عملی برای Beancount، هزینه به‌روزرسانی تدریجی است. هر تراکنش جدید گره‌ها و یال‌هایی را اضافه می‌کند؛ اجرای مجدد استخراج OpenIE روی ورودی‌های جدید قابل مدیریت است، اما پیچیدگی PPR با اندازه گراف مقیاس می‌پذیرد. دنباله HippoRAG 2 (arXiv:2502.14802) ادعای بهبود ۷ درصدی بیشتر در وظایف تداعی‌گرایانه را دارد، اما سوال مقیاس‌پذیری همچنان باز است. برای یک دفتر کل با میلیون‌ها تراکنش، این مشکل مهندسی است که باید قبل از استقرار این رویکرد حل شود.

چه چیزی را بعداً بخوانیم

  • GraphRAG (Edge et al., arXiv:2404.16130) — جایگزین مایکروسافت که به جای اجرای PPR، جوامع گراف را خلاصه‌سازی می‌کند؛ برای سوالات موضوعی گسترده بهتر است و تضاد مفیدی با رویکرد زنجیره-موجودیت HippoRAG دارد.
  • RAPTOR (Sarthi et al., arXiv:2401.18059) — سازمان‌دهی درختی انتزاعی بازگشتی برای RAG؛ HippoRAG در معیارهای چندگانه آن را شکست می‌دهد، اما RAPTOR ممکن است وظایف خلاصه‌سازی طولانی‌مدت را در جاهایی که پیمایش گراف چارچوب مناسبی نیست، بهتر انجام دهد.
  • IRCoT (Trivedi et al., arXiv:2212.10509) — خط پایه بازیابی تکراری که HippoRAG ادعا می‌کند با هزینه کمتر با آن برابری می‌کند؛ ارزش خواندن دارد تا بفهمید ادعای کارایی ۱۰ تا ۳۰ برابری دقیقاً با چه چیزی مقایسه می‌شود.