GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرسوجو
مقاله GraphRAG مایکروسافت در آوریل ۲۰۲۴ منتشر شد و به سرعت به مرجعی اصلی برای کسانی تبدیل شد که میپرسیدند آیا گرافهای دانش میتوانند RAG را از واضحترین حالت شکستش نجات دهند: یعنی سوالاتی که به جای بازیابی یک بخش خاص، نیازمند ترکیب کل یک پیکره متنی هستند. من در حال حاضر آن را مطالعه میکنم زیرا گزارش قبلی در FinAuditing نشان داد که مدلهای زبانی بزرگ (LLMs) چگونه با ساختارهای XBRL چند-سندی دست و پنجه نرم میکنند — و رویکرد خلاصه انجمنِ GraphRAG، برجستهترین پاسخ موجود به همین نوع مسائل استدلال جهانی است.
مقاله
مقاله "از محلی تا جهانی: رویکرد گراف RAG به تلخیص با تمرکز بر پرسوجو"، توسط دارن اج، ها ترین، نیومن چنگ، جاشوا بردلی، الکس چائو، آپوروا مودی، استیون ترویت، داشا متروپولیتانسکی، رابرت اوسازووا نس و جاناتان لارسون (مایکروسافت، arXiv:2404.16130)، یک خط لوله دو مرحلهای مبتنی بر LLM را برای پاسخ به آنچه نویسندگان "سوالات معنابخشی جهانی" مینامند، پیشنهاد میکند — پرسوجوهایی مانند "موضوعات اصلی در این مجموعه داده چیست؟" که RAG برداری استاندارد نمیتواند به آنها پاسخ دهد، زیرا هیچ بخش واحدی حاوی پاسخ نیست.
این رویکرد در دو فاز پیش میرود. در طول نمایهسازی (indexing)، یک LLM موجودیتها، روابط و ادعاها را از هر قطعه متن استخراج کرده، آنها را در یک گراف موجودیت وزنی مونتاژ میکند و سپس تشخیص انجمن لایدن (Leiden) را برای تقسیمبندی گراف به سلسلهمراتبی از خوشههای مرتبط اجرا میکند و برای هر انجمن در هر سطح، یک خلاصه به زبان طبیعی تولید مینماید. در زمان پرسوجو، هر خلاصه انجمن به طور مستقل یک پاسخ جزئی تولید میکند (مرحله map)، این پاسخهای جزئی بر اساس امتیاز مفید بودن رتبهبندی شده و تا حد محدودیت پنجره بافت (context window) تجمیع میشوند (مرحله reduce) و نتیجه نهایی یک پاسخ سنتز شده است.
ایدههای کلیدی
- تشخیص انجمن سلسلهمراتبی لایدن، پیکره متنی را به چهار سطح از درشتدانه بودن (C0–C3) ساختاردهی میکند، که به کاربران اجازه میدهد عمق پاسخ را با هزینه توکن معامله کنند — خلاصههای سطح ریشه به ۹۷٪ توکن کمتری نسبت به پردازش مستقیم متن منبع نیاز داشتند.
- در دو پیکره آزمایشی — متن پادکستها (حدود ۱ میلیون توکن، ۸۵۶۴ موجودیت، ۲۰۶۹۱ یال رابطه) و مقالات خبری (حدود ۱.۷ میلیون توکن، ۱۵۷۵۴ موجودیت، ۱۹۵۲۰ یال) — GraphRAG در مقایسههای جفتی قضاوت شده توسط LLM، به نرخ پیروزی ۷۲ تا ۸۳ درصدی در جامعیت و ۶۲ تا ۸۲ درصدی در تنوع نسبت به RAG برداری دست یافت.
- طراحی map-reduce از فراخوانیهای LLM با طول بافت زیاد در زمان پرسوجو جلوگیری میکند: خلاصههای انجمن از پیش محاسبه شدهاند، بنابراین بازیابی به جای پردازش مجدد اسناد خام، به واکشی یک خلاصه تبدیل میشود.
- این مقاله شش وضعیت را بنچمارک میکند: چهار سطح سلسلهمراتبی GraphRAG، تلخیص متن (TS) و جستجوی معنایی (SS). وضعیتهای جهانی GraphRAG به طور مداوم در سوالات معنابخشی از SS بهتر عمل میکنند؛ SS در پرس وجوهای جستجوی خاص عملکرد بهتری دارد.
- آزمایشهای استخراج ادعا نشان داد که وضعیتهای جهانی به طور متوسط ۳۱ تا ۳۴ ادعا در هر پاسخ استخراج کردند، در حالی که این رقم برای RAG برداری ۲۵ تا ۲۶ بود، که نشاندهنده پوشش موضوعی گستردهتر مستقل از ترجیحات امتیازی داور LLM است.
- این خط لوله به هیچ طرحواره (schema) یا هستیشناسی (ontology) خاص دامنه نیاز ندارد — استخراج موجودیت، برچسبگذاری روابط و تلخیص انجمن همگی تنها از طریق استنتاجِ مجهز به پرامپت انجام میشوند.
چه چیزی پابرجا میماند و چه چیزی نه
بینش اصلی معماری صحیح است: RAG مبتنی بر شباهت کسینوسی نمیتواند به سوالات در سطح پیکره پاسخ دهد زیرا هیچ تکه واحدی وجود ندارد که نماینده کل باشد. خلاصههای انجمن از پیش محاسبه شده GraphRAG یک راه حل اصولی است و سلسلهمراتب مبتنی بر لایدن یک انتخاب طراحی واقعی است که به شما اجازه میدهد بسته به تحمل هزینه، از خلاصههای جهانی درشتدانه تا خلاصههای خوشهای ریزدانه پیمایش کنید.
اما ارزیابی دارای مشکلات جدی است. یک مطالعه مستقل اخیر (arXiv:2506.06331) متدولوژی "LLM به عنوان داور" مورد استفاده توسط GraphRAG و جانشینان آن را حسابرسی کرد و سه سوگیری سیستماتیک یافت: سوگیری موقعیت (نرخ پیروزی با جابجایی ترتیبی پاسخها در پرامپت بیش از ۳۰٪ تغییر میکند)، سوگیری طول (تفاوت ۲۵ توکنی در یک پاسخ ۲۰۰ توکنی باعث نوسان ۵۰ امتیازی در نرخ پیروزی میشود) و سوگیری آزمایش (ارزیابیهای یکسان نتایج متناقضی را در اجراهای مختلف تولید میکنند). پس از اصلاح این موارد، مزایای عملکرد ادعا شده فرو میپاشد — نرخ پیروزی ۶۶.۷ درصدی گزارش شده LightRAG نسبت به RAG ساده پس از اصلاح به ۳۹.۰۶٪ میرسد. اعداد جامعیت ۷۲ تا ۸۳ درصدی خود GraphRAG نیز تقریباً به طور قطع از همین متدولوژی آسیب میبینند.
هزینه نمایهسازی نیز یک مانع واقعی است. یک تحلیل عملیاتی نشان داد که هزینههای ساخت نمایه برای پیکرههای با اندازه متوسط با استفاده از GPT-4o به ۴۷.۹ دلار رسیده است. نسخه LazyGraphRAG خود مایکروسافت که به عنوان پیگیری منتشر شد، با به تاخیر انداختن استخراج گراف تا زمان پرسوجو، این هزینه را به ۰.۱٪ هزینه GraphRAG کامل کاهش میدهد — که اعترافی ضمنی است بر اینکه بودجه نمایهسازی اصلی برای بسیاری از استقرارهای واقعی غیرعملی است.
دو پیکره ارزیابی نیز محدود هستند: دو مجموعه داده انگلیسیزبان که هر کدام در مجموع ۱ تا ۱.۷ میلیون توکن دارند. نویسندگان اذعان میکنند که تعمیم به دامنهها و مقیاسهای دیگر ناشناخته است. برای دادههای ساختاریافته یا نیمهساختاریافته — مانند گزارشهای مالی یا خروجیهای دفتر کل — پرامپتهای استخراج موجودیت که برای متنهای روایی بهینه شدهاند، ممکن است روابط جدولی و سلسلهمراتبی را که در عمل بیشترین اهمیت را دارند، از دست بدهند.