HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدلهای زبانی بزرگ
HippoRAG که در کنفرانس NeurIPS 2024 منتشر شده است، یک چارچوب تولید تقویتشده با بازیابی (RAG) است که از یک گراف دانش و رتبه صفحه شخصیسازی شده (PPR) برای شبیهسازی نحوه نمایهگذاری خاطرات بلندمدت در هیپوکامپ انسان استفاده میکند. من این مقاله را مطالعه میکنم زیرا مشکل اصلی که به آن میپردازد — یعنی بازیابی اطلاعات توزیع شده در مستندات متعدد که تنها از طریق زنجیرهای از حقایق به هم مرتبط هستند — دقیقاً همان مشکلی است که یک عامل Beancount هنگام پاسخ دادن به سوالات درباره تاریخچه دفتر کل چندین ساله با آن مواجه میشود.
مقاله
خیمنز گوتیرز، شو، گو، یاسوناگا و سو یک حالت شکست ساختاری را در RAG استاندارد شناسایی کردهاند: اگر بخشهایی که به یک سوال پاسخ میدهند هیچ عبارت مشترکی با خود پرسوجو نداشته باشند، بازیابی مبتنی بر جاسازی (Embedding) به سادگی آنها را پیدا نخواهد کرد. آنها این موضوع را مشکل «مسیریابی» (path-finding) مینامند — شما باید زنجیرهای از موجودیتها را طی کنید، نه اینکه فقط یک رشته پرسوجو را با بردار سند مطابقت دهید.
راهکار آنها، یعنی HippoRAG، تئوری نمایهگذاری هیپوکامپی حافظه انسان را منعکس میکند. یک مدل زبانی بزرگ (GPT-3.5-turbo) سهتاییهای استخراج اطلاعات باز (OpenIE) را به صورت آفلاین از هر بخش استخراج کرده و یک گراف دانش بدون طرحواره (schemaless) از گرههای عبارت اسمی و یالهای رابطهای میسازد. یک رمزگذار بازیابی متراکم، یالهای مترادف را بین گرههایی که از نظر معنایی مشابه هستند (شباهت کسینوسی > ۰.۸) اضافه میکند. در زمان پرسوجو، سیستم موجودیتهای نامگذاری شده را از پرسوجو استخراج کرده، انتشار رتبه صفحه شخصیسازی شده (PPR) را از آن گرهها آغاز میکند و بخشها را بر اساس مجموع احتمالات PPR در گرههای عضو آنها رتبهبندی میکند. وزن «ویژگی گره» (node specificity) — معکوس تعداد بخشهایی که یک گره در آنها ظاهر میشود — مانند یک IDF بومی گراف عمل میکند.
ایدههای کلیدی
- IDF بومی گراف: وزندهی بیشتر به گرههای کمیاب در انتشار PPR بینشی است که باعث کارکرد سیستم میشود. بدون آن، موجودیتهای رایج مانند «شرکت» یا «the» بر بازیابی غالب میشوند. تحلیلهای کاهشی (Ablations) نشان میدهد که حذف ویژگی گره، نرخ بازیابی Recall@2 در MuSiQue را از ۴۰.۹ به ۳۷.۶ کاهش میدهد.
- تکمرحلهای بهتر از تکراری است: HippoRAG بدون تکرار به نرخ بازیابی مشابه با IRCoT دست مییابد (که چندین دور بازیابی را با استدلال زنجیره افکار ترکیب میکند)، در حالی که در زمان پرسوجو ۱۰ تا ۳۰ برابر ارزانتر و ۶ تا ۱۳ برابر سریعتر است.
- دستاوردهای بزرگ در 2WikiMultiHopQA: نرخ Recall@5 از ۶۸.۲ (ColBERTv2) به ۸۹.۱ (HippoRAG) بهبود یافته است. این شکاف دقیقاً بازتابدهنده ساختار مسیریابی در سوالات این معیار است.
- دستاوردهای ناچیز در MuSiQue: نرخ Recall@5 تنها از ۴۹.۲ به ۵۱.۹ بهبود یافته است. MuSiQue دشوارتر است؛ بسیاری از سوالات نیازمند استدلالی هستند که توپولوژی گراف نمیتواند به طور کامل آن را پوشش دهد.
- افت عملکرد در HotpotQA: HippoRAG در HotpotQA عملکرد ضعیفتری نسبت به ColBERTv2 دارد (Recall@2: ۶۰.۵ در مقابل ۶۴.۷). سوالات HotpotQA عموماً از طریق دو بخش به هم مرتبط قابل حل هستند که این امر نقطه قوت بازیابی جاسازی است نه پیمایش گراف.
- کیفیت OpenIE گلوگاه اصلی است: تحلیلها نشان میدهد که استفاده از Llama-3-70B برای استخراج، به دلیل خطاهای قالببندی باعث کاهش عملکرد شده است، در حالی که Llama-3-8B توانست با GPT-3.5-turbo رقابت کند. استخراجهای آماده (Off-the-shelf) شکننده هستند.
چه چیزی تایید میشود — و چه چیزی نه
نتیجه واقعی است: در 2WikiMultiHopQA که به طور خاص حول زنجیرههای چندگانه طراحی شده است، پیمایش گراف با فاصله زیادی از بازیابی متراکم پیشی میگیرد. رویکرد PPR ظریف است — آغاز انتشار در موجودیتهای پرسوجو و اجازه دادن به گراف برای پر کردن همسایگی، روشی اصولی برای مدیریت عدم تطابق توزیعی بین پرسوجو و بخشهای پشتیبان است.
آنچه برای من کمتر متقاعدکننده است، قاببندی عصبی-زیستی است. این مقاله شباهتی بین PageRank و فعالیت بخش CA3 هیپوکامپ ترسیم میکند و به مطالعهای در علوم شناختی استناد میکند که همبستگی بین احتمال بازیابی کلمات توسط انسان و امتیازات PageRank را یافته است. این یک مشاهده همبستگی از روانشناسی زبان است، نه یک استخراج مستقیم. PPR بر اساس فیزیولوژی هیپوکامپ طراحی نشده است — نامیدن آن به عنوان «الهام گرفته از علوم اعصاب» بیشتر یک برندینگ است تا مکانیسم.
ادعای کارایی نیز شایسته بررسی است. HippoRAG تکمرحلهای در حالت آنلاین ۱۰ تا ۳۰ برابر ارزانتر از IRCoT است — اما هزینه نمایهگذاری آفلاین (اجرای GPT-3.5-turbo برای استخراج سهتاییهای OpenIE از تمام اسناد) هزینهای اولیه و قابل توجه است. برای مجموعهای که مرتباً تغییر میکند، این هزینه در هر بهروزرسانی دوباره پرداخت میشود. مقاله هزینه کل نمایهگذاری را گزارش نکرده است.
در نهایت، معیارهای ارزیابی در مقیاس متوسط هستند: ۶ هزار تا ۱۱ هزار بخش و زیر ۱۰۰ هزار گره گراف. نویسندگان صراحتاً مقیاسپذیری را به عنوان یک سوال باز فهرست کردهاند. اینکه آیا PPR در صدها هزار ورودی دفتر کل که چندین دهه را شامل میشود دوام میآورد یا خیر، هنوز تایید نشده است.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
یک دفتر کل Beancount زنجیرهای از حقایق است: سلسله مراتب حسابها، ارجاعات تراکنش، ارجاعات متقابل قوانین و تخصیص بودجه. سوالی مانند «کدام هزینههای سال ۲۰۲۲ در همان دستهبندی بودجهای فاکتور شماره INV-2019-0042 قرار میگیرند؟» نیازمند پیمایش گراف حسابها، تراکنشها و دستهبندیها است — دقیقاً همان وظیفه مسیریابی که RAG استاندارد در آن شکست میخورد.
طراحی نمایهگذاری HippoRAG به طور طبیعی نقشهبرداری میشود: استخراج سهتاییهای موجودیت-رابطه از ورودیهای دفتر کل (حساب، مبلغ، طرف مقابل، قانون)، ساخت گراف و سپس اجرای PPR که از موجودیتهای پرسوجو آغاز میشود. وزندهی ویژگی گره به طور طبیعی گرههای عمومی مانند «هزینهها» یا «داراییها» را کموزن و نامهای نادر فروشندگان یا کدهای حساب را پروزن میکند، که دقیقاً همان چیزی است که شما میخواهید.
مانع عملی برای Beancount، هزینه بهروزرسانی تدریجی است. هر تراکنش جدید گرهها و یالهایی را اضافه میکند؛ اجرای مجدد استخراج OpenIE روی ورودیهای جدید قابل مدیر یت است، اما پیچیدگی PPR با اندازه گراف مقیاس میپذیرد. دنباله HippoRAG 2 (arXiv:2502.14802) ادعای بهبود ۷ درصدی بیشتر در وظایف تداعیگرایانه را دارد، اما سوال مقیاسپذیری همچنان باز است. برای یک دفتر کل با میلیونها تراکنش، این مشکل مهندسی است که باید قبل از استقرار این رویکرد حل شود.
چه چیزی را بعداً بخوانیم
- GraphRAG (Edge et al., arXiv:2404.16130) — جایگزین مایکروسافت که به جای اجرای PPR، جوامع گراف را خلاصهسازی میکند؛ برای سوالات موضوعی گسترده بهتر است و تضاد مفیدی با رویکرد زنجیره-موجودیت HippoRAG دارد.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — سازماندهی درختی انتزاعی بازگشتی برای RAG؛ HippoRAG در معیارهای چندگانه آن را شکست میدهد، اما RAPTOR ممکن است وظایف خلاصهسازی طولانیمدت را در جاهایی که پیمایش گراف چارچوب مناسبی نیست، بهتر انجام دهد.
- IRCoT (Trivedi et al., arXiv:2212.10509) — خط پایه بازیابی تکراری که HippoRAG ادعا میکند با هزینه کمتر با آن برابری میکند؛ ارزش خواندن دارد تا بفهمید ادعای کارایی ۱۰ تا ۳۰ برابری دقیقاً با چه چیزی مقایسه میشود.