GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

۱۴ خرداد ۱۴۰۵ · زمان مطالعه 7 دقیقه

Mike Thrift

Marketing Manager

مقاله GraphRAG مایکروسافت در آوریل ۲۰۲۴ منتشر شد و به سرعت به مرجعی اصلی برای کسانی تبدیل شد که می‌پرسیدند آیا گراف‌های دانش می‌توانند RAG را از واضح‌ترین حالت شکستش نجات دهند: یعنی سوالاتی که به جای بازیابی یک بخش خاص، نیازمند ترکیب کل یک پیکره متنی هستند. من در حال حاضر آن را مطالعه می‌کنم زیرا گزارش قبلی در FinAuditing نشان داد که مدل‌های زبانی بزرگ (LLMs) چگونه با ساختارهای XBRL چند-سندی دست و پنجه نرم می‌کنند — و رویکرد خلاصه انجمنِ GraphRAG، برجسته‌ترین پاسخ موجود به همین نوع مسائل استدلال جهانی است.

مقاله

2026-06-04-graphrag-local-to-global-query-focused-summarization

مقاله "از محلی تا جهانی: رویکرد گراف RAG به تلخیص با تمرکز بر پرس‌وجو"، توسط دارن اج، ها ترین، نیومن چنگ، جاشوا بردلی، الکس چائو، آپوروا مودی، استیون ترویت، داشا متروپولیتانسکی، رابرت اوسازووا نس و جاناتان لارسون (مایکروسافت، arXiv:2404.16130)، یک خط لوله دو مرحله‌ای مبتنی بر LLM را برای پاسخ به آنچه نویسندگان "سوالات معنابخشی جهانی" می‌نامند، پیشنهاد می‌کند — پرس‌وجوهایی مانند "موضوعات اصلی در این مجموعه داده چیست؟" که RAG برداری استاندارد نمی‌تواند به آن‌ها پاسخ دهد، زیرا هیچ بخش واحدی حاوی پاسخ نیست.

این رویکرد در دو فاز پیش می‌رود. در طول نمایه‌سازی (indexing)، یک LLM موجودیت‌ها، روابط و ادعاها را از هر قطعه متن استخراج کرده، آن‌ها را در یک گراف موجودیت وزنی مونتاژ می‌کند و سپس تشخیص انجمن لایدن (Leiden) را برای تقسیم‌بندی گراف به سلسله‌مراتبی از خوشه‌های مرتبط اجرا می‌کند و برای هر انجمن در هر سطح، یک خلاصه به زبان طبیعی تولید می‌نماید. در زمان پرس‌وجو، هر خلاصه انجمن به طور مستقل یک پاسخ جزئی تولید می‌کند (مرحله map)، این پاسخ‌های جزئی بر اساس امتیاز مفید بودن رتبه‌بندی شده و تا حد محدودیت پنجره بافت (context window) تجمیع می‌شوند (مرحله reduce) و نتیجه نهایی یک پاسخ سنتز شده است.

ایده‌های کلیدی

تشخیص انجمن سلسله‌مراتبی لایدن، پیکره متنی را به چهار سطح از درشت‌دانه بودن (C0–C3) ساختاردهی می‌کند، که به کاربران اجازه می‌دهد عمق پاسخ را با هزینه توکن معامله کنند — خلاصه‌های سطح ریشه به ۹۷٪ توکن کمتری نسبت به پردازش مستقیم متن منبع نیاز داشتند.
در دو پیکره آزمایشی — متن پادکست‌ها (حدود ۱ میلیون توکن، ۸۵۶۴ موجودیت، ۲۰۶۹۱ یال رابطه) و مقالات خبری (حدود ۱.۷ میلیون توکن، ۱۵۷۵۴ موجودیت، ۱۹۵۲۰ یال) — GraphRAG در مقایسه‌های جفتی قضاوت شده توسط LLM، به نرخ پیروزی ۷۲ تا ۸۳ درصدی در جامعیت و ۶۲ تا ۸۲ درصدی در تنوع نسبت به RAG برداری دست یافت.
طراحی map-reduce از فراخوانی‌های LLM با طول بافت زیاد در زمان پرس‌وجو جلوگیری می‌کند: خلاصه‌های انجمن از پیش محاسبه شده‌اند، بنابراین بازیابی به جای پردازش مجدد اسناد خام، به واکشی یک خلاصه تبدیل می‌شود.
این مقاله شش وضعیت را بنچمارک می‌کند: چهار سطح سلسله‌مراتبی GraphRAG، تلخیص متن (TS) و جستجوی معنایی (SS). وضعیت‌های جهانی GraphRAG به طور مداوم در سوالات معنابخشی از SS بهتر عمل می‌کنند؛ SS در پرس‌وجوهای جستجوی خاص عملکرد بهتری دارد.
آزمایش‌های استخراج ادعا نشان داد که وضعیت‌های جهانی به طور متوسط ۳۱ تا ۳۴ ادعا در هر پاسخ استخراج کردند، در حالی که این رقم برای RAG برداری ۲۵ تا ۲۶ بود، که نشان‌دهنده پوشش موضوعی گسترده‌تر مستقل از ترجیحات امتیازی داور LLM است.
این خط لوله به هیچ طرحواره (schema) یا هستی‌شناسی (ontology) خاص دامنه نیاز ندارد — استخراج موجودیت، برچسب‌گذاری روابط و تلخیص انجمن همگی تنها از طریق استنتاجِ مجهز به پرامپت انجام می‌شوند.

چه چیزی پابرجا می‌ماند و چه چیزی نه

بینش اصلی معماری صحیح است: RAG مبتنی بر شباهت کسینوسی نمی‌تواند به سوالات در سطح پیکره پاسخ دهد زیرا هیچ تکه واحدی وجود ندارد که نماینده کل باشد. خلاصه‌های انجمن از پیش محاسبه شده GraphRAG یک راه حل اصولی است و سلسله‌مراتب مبتنی بر لایدن یک انتخاب طراحی واقعی است که به شما اجازه می‌دهد بسته به تحمل هزینه، از خلاصه‌های جهانی درشت‌دانه تا خلاصه‌های خوشه‌ای ریزدانه پیمایش کنید.

اما ارزیابی دارای مشکلات جدی است. یک مطالعه مستقل اخیر (arXiv:2506.06331) متدولوژی "LLM به عنوان داور" مورد استفاده توسط GraphRAG و جانشینان آن را حسابرسی کرد و سه سوگیری سیستماتیک یافت: سوگیری موقعیت (نرخ پیروزی با جابجایی ترتیبی پاسخ‌ها در پرامپت بیش از ۳۰٪ تغییر می‌کند)، سوگیری طول (تفاوت ۲۵ توکنی در یک پاسخ ۲۰۰ توکنی باعث نوسان ۵۰ امتیازی در نرخ پیروزی می‌شود) و سوگیری آزمایش (ارزیابی‌های یکسان نتایج متناقضی را در اجراهای مختلف تولید می‌کنند). پس از اصلاح این موارد، مزایای عملکرد ادعا شده فرو می‌پاشد — نرخ پیروزی ۶۶.۷ درصدی گزارش شده LightRAG نسبت به RAG ساده پس از اصلاح به ۳۹.۰۶٪ می‌رسد. اعداد جامعیت ۷۲ تا ۸۳ درصدی خود GraphRAG نیز تقریباً به طور قطع از همین متدولوژی آسیب می‌بینند.

هزینه نمایه‌سازی نیز یک مانع واقعی است. یک تحلیل عملیاتی نشان داد که هزینه‌های ساخت نمایه برای پیکره‌های با اندازه متوسط با استفاده از GPT-4o به ۴۷.۹ دلار رسیده است. نسخه LazyGraphRAG خود مایکروسافت که به عنوان پیگیری منتشر شد، با به تاخیر انداختن استخراج گراف تا زمان پرس‌وجو، این هزینه را به ۰.۱٪ هزینه GraphRAG کامل کاهش می‌دهد — که اعترافی ضمنی است بر اینکه بودجه نمایه‌سازی اصلی برای بسیاری از استقرار‌های واقعی غیرعملی است.

دو پیکره ارزیابی نیز محدود هستند: دو مجموعه داده انگلیسی‌زبان که هر کدام در مجموع ۱ تا ۱.۷ میلیون توکن دارند. نویسندگان اذعان می‌کنند که تعمیم به دامنه‌ها و مقیاس‌های دیگر ناشناخته است. برای داده‌های ساختاریافته یا نیمه‌ساختاریافته — مانند گزارش‌های مالی یا خروجی‌های دفتر کل — پرامپت‌های استخراج موجودیت که برای متن‌های روایی بهینه شده‌اند، ممکن است روابط جدولی و سلسله‌مراتبی را که در عمل بیشترین اهمیت را دارند، از دست بدهند.

چرا این موضوع برای هوش مصنوعی مالی مهم است

یک دفتر کل Beancount دقیقاً همان پیکره‌ای است که در آن پرس‌وجوهای معنابخشی جهانی به طور طبیعی رخ می‌دهند: "بزرگترین دسته‌بندی‌های هزینه من در سه سال گذشته چه بوده‌اند؟" یا "کدام حساب‌های فروشندگان سریع‌تر از ۲۰٪ سال‌به‌سال رشد کرده‌اند؟" RAG استاندارد نمی‌تواند به این‌ها پاسخ دهد زیرا هیچ ورودی واحدی حاوی پاسخ نیست — عامل (agent) نیاز دارد تا در میان هزاران تراکنش ترکیب‌بندی انجام دهد.

رویکرد خلاصه انجمن GraphRAG با این موضوع مطابقت دارد: اگر گره‌های گراف دانش، حساب‌ها، دریافت‌کنندگان و دسته‌بندی‌های تراکنش باشند و یال‌ها روابط هم‌آیی یا حساب-والد باشند، آنگاه خلاصه‌های انجمن به نماهای تجمیعی از پیش محاسبه شده بر روی دفتر کل تبدیل می‌شوند. سلسله‌مراتب همچنین بازتاب‌دهنده نحوه ساختاردهی داده‌ها در درخت حساب‌های Beancount است — دارایی‌ها (Assets)، هزینه‌ها (Expenses) و درآمدها (Income) به صورت بازگشتی تجزیه می‌شوند، که تناسب طبیعی با خوشه‌بندی سلسله‌مراتبی به سبک لایدن دارد.

با این اوصاف، یافته‌های سوگیری ارزیابی یک هشدار است: نرخ‌های پیروزی خیره‌کننده در مقاله ممکن است تحت آزمایش‌های کنترل‌شده دقیق دوام نیاورند و هزینه نمایه‌سازی، این را به یک شرط‌بندی مهندسی سنگین‌تر از آنچه به نظر می‌رسد تبدیل می‌کند. به طور خاص برای Beancount، تجمیع ساختاریافته — پرس‌وجوهای مشابه SQL یا pandas بر روی دفتر کل صادر شده — ممکن است در تحلیل‌های قطعی (deterministic) از تلخیص انجمن مبتنی بر LLM بهتر عمل کند. ارزش GraphRAG برای سوالات روایت‌محور، مانند استدلال روی یادداشت‌های تراکنش و نام فروشندگان در مقیاس بالا، که در آن‌ها ابهام واقعی وجود دارد و پرس‌وجوهای ساختاریافته نمی‌توانند آن را حل کنند، در بالاترین سطح خواهد بود.

پیشنهاد برای مطالعه بیشتر

LazyGraphRAG (وبلاگ تحقیقات مایکروسافت، ۲۰۲۴) — نسخه کاهش‌دهنده هزینه مایکروسافت که استخراج گراف را به تاخیر می‌اندازد؛ مستقیماً با این موضوع مرتبط است که آیا رویکرد GraphRAG در مقیاس واقعی دفتر کل بدون هزینه‌های نمایه‌سازی گزاف قابل استقرار است یا خیر.
"چقدر دستاوردهای عملکرد واقعی قابل توجه هستند؟ یک چارچوب ارزیابی بدون سوگیری برای GraphRAG" (arXiv:2506.06331) — حسابرسی سوگیری سیستماتیک؛ مطالعه‌ای ضروری قبل از پذیرش هر عدد نرخ پیروزی از ارزیابی‌های "LLM به عنوان داور" در روش‌های تلخیص.
"به سوی استفاده تأییدپذیر و ایمن از ابزار برای عوامل LLM" (arXiv:2601.08012, ICSE 2026) — مورد بعدی در لیست مطالعه؛ تمرکز را از تلخیص به امنیت بازنویسی تغییر می‌دهد، که مشکل حل‌نشده و مبرم‌تری برای عوامل Beancount است.

Share on Twitter Follow @beancount_io

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

مقاله

ایده‌های کلیدی

چه چیزی پابرجا می‌ماند و چه چیزی نه

چرا این موضوع برای هوش مصنوعی مالی مهم است

پیشنهاد برای مطالعه بیشتر

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله​

ایده‌های کلیدی​

چه چیزی پابرجا می‌ماند و چه چیزی نه​

چرا این موضوع برای هوش مصنوعی مالی مهم است​

پیشنهاد برای مطالعه بیشتر​

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله

ایده‌های کلیدی

چه چیزی پابرجا می‌ماند و چه چیزی نه

چرا این موضوع برای هوش مصنوعی مالی مهم است

پیشنهاد برای مطالعه بیشتر