StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست میدهد
شکایت همیشگی علیه RAG در محیط عملیاتی این است که وقتی واقعیتهای مرتبط در دهها سند با فرمتهای ناسازگار پراکنده شدهاند، بازیابی ابزاری نادقیق است. StructRAG (Li et al., ICLR 2025) با تبدیل متن بازیابی شده به یک ساختار مناسب برای وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن ساده — قبل از انجام استدلال، مستقیماً به این مشکل حمله میکند. انگیزه این کار یک ادعای نظریه شناختی است: انسانها به طور طبیعی اطلاعات خام را هنگام انجام کارهای استدلالی پیچیده به بازنماییهای ساختاریافته تبدیل میکنند. فارغ از اینکه این چارچوببندی بیشتر استعاره باشد یا مکانیسم، اعداد تجربی به دست آمده ارزش بررسی دقیق را دارند.
مقاله
StructRAG یک خط لوله در زمان استنتاج با سه ماژول پیشنهاد میکند. اول، یک مسیریاب ساختار ترکیبی (Qwen2-7B-Instruct که با DPO روی ۹۰۰ جفت ترجیح مصنوعی تنظیم شده است) پیشبینی میکند که کدام یک از پنج نوع ساختار برای سوال ورودی و اسناد آن مناسبتر است. دوم، یک ساختارمندکننده دانش پراکنده (Qwen2-72B-Instruct) تکههای بازیابی شده را به آن فرمت انتخابی بازنویسی میکند. سوم، یک بهرهبردار دانش ساختارمند سوال را به زیرسوالها تجزیه کرده، قطعات ساختاریافته مرتبط را بازیابی و پاسخ نهایی را تولید میکند. پنج نوع ساختار عبارتند از: جدول (مقایسههای آماری)، گراف (زنجیرههای چندگامی، کدگذاری شده به صورت سهتاییهای سر–رابطه–ته)، الگوریتم (وظایف برنامهریزی، نوشته شده به صورت شبهکد)، کاتالوگ (خلاصهسازی، شمارهگذاری سلسلهمراتبی) و تکه متن (تکگامی ساده، حالت پیشفرض RAG).
نویسندگان عمدتاً روی بنچمارک Loong (ارائه شده در EMNLP 2024) ارزیابی انجام دادهاند؛ یک بنچمارک پرسش و پاسخ چندسندی که گزارشهای مالی، پروندههای حقوقی و مقالات دانشگاهی را با ورودیهایی از ۱۰ هزار تا ۲۵۰ هزار توکن شامل میشود و چهار نوع وظیفه را پوشش میدهد: مکانیابی دقیق، مقایسه، خوشهبندی و زنجیره استدلال.
ایدههای کلیدی
- مسیریاب آموزشدیده با DPO به دقت ۹۴.۳۸٪ در انتخاب نوع ساختار میرسد، در حالی که Qwen2-72B-Instruct در حالت صفر-نمونه دقت ۵۰.۰۴٪ دارد — تصمیم مسیریابی حیاتیترین جزء سیستم است. حذف مسیریاب (Ablation) امتیاز کلی LLM را از ۶۰.۳۸ به ۴۵.۳۳ کاهش میدهد.
- در سختترین سطح طول سند (۲۰۰ هزار تا ۲۵۰ هزار توکن)، StructRAG امتیاز ۵۱.۴۲ را کسب میکند، در حالی که روش Context-Long امتیاز ۲۸.۹۲ و RAG امتیاز ۲۹.۲۹ را به دست میآورند — یک شکاف ۲۲ امتیازی که با افزایش زمینه (Context) بیشتر میشود. رویکرد استاندارد "همه چیز را داخل محتوا بریز" به شدت افت میکند، در حالی که StructRAG با وقار بیشتری با حجم بالا کنار میآید.
- GraphRAG با وجود اعمال ساختار، امتیاز کلی ۴۰.۸۲ را در Loong کسب میکند (در مقابل ۶۹.۴۳ برای StructRAG) و برای هر پرسش ۲۱۷.۱ دقیقه زمان میبرد، در حالی که StructRAG تنها ۹.۷ دقیقه زمان نیاز دارد. ساخت یک گراف دانش جهانی از قبل، هم کندتر و هم کمدقتتر از انتخاب فرمت مناسب در لحظه نیاز است.
- در Podcast Transcripts (خلاصهسازی با انتهای باز)، StructRAG به نرخ پیروزی جفتی ۹۵.۷۵٪ نسبت به Long-Context دست مییابد که نشان میدهد سنتز ساختاریافته حتی در منابعی با ساختار کمتر، از رویکردهای تمام-زمینه بهتر عمل میکند.
- امتیازهای تطابق دقیق (Exact-match یا EM) به طور مداوم از امتیازهای قضاوت شده توسط LLM عقب میمانند، زیرا ساختارمندسازی باعث تغییر کلمات ظاهری میشود (مثلاً "$1,308,463" در سلول جدول به "138463" تبدیل میشود) و یک مشکل سیستماتیک عدم تطابق توکن ایجاد میکند که باعث جریمه شدن در ارزیابیهای خودکار میشود.
آنچه پابرجا میماند — و آنچه نمیماند
نتیجه اصلی واقعی است و داستان مطالعه حذفی (ablation) شفاف است: مسیریابی بیشترین اهمیت را دارد، پس از آن ساختارمندسازی و سپس بهرهبرداری. بهبود در اسناد طولانی قویترین یافته است — ۲۲ امتیاز در ۲۰۰ هزار توکن، نویز آماری نیست.
با ا ین حال، من سه ملاحظه دارم. اول، پوشش بنچمارک محدود است. StructRAG فقط Loong و Podcast Transcripts را گزارش کرده است. بنچمارکهای استاندارد چندگامی (مانند HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) غایب هستند، که ارزیابی StructRAG در مقایسه با بدنه بزرگ تحقیقات قبلی بازیابی را غیرممکن میکند. داوران ICLR احتمالاً این موضوع را مطرح کردهاند، اما مقاله در نسخه منتشر شده پاسخ مستقیمی ارائه نداده است.
دوم، مدل ارزیابی GPT-4 است. امتیازدهی "LLM به عنوان داور" در معرض سوگیری طول و ترجیحات سبکی است که ممکن است به خروجیهای حاصل از فرآیند ساختارمندسازی مشابه تمایل داشته باشد، به ویژه زمانی که داور روی متون ساختاریافته مشابه آموزش دیده باشد. معیار EM یک اصلاحکننده است، اما نویسندگان آن را به جای شواهدی بر نقص متد، به عنوان محدودیتِ خودِ معیار معرفی میکنند.
سوم، StructRAG با یک زیربنای بزرگ تست شده است (Qwen2-72B-Instruct برای ساختارمندکننده و بهرهبردار). مشخص نیست چه مقدار از بهبود ناشی از مسیریابی است و چه مقدار صرفاً به دلیل فراخوانی یک مدل قدرتمند برای بازنویسی و خلاصهسازی. یک مطالعه حذفی در برابر یک خط پایه پاسخ-مستقیم با همان اندازه مدل میتوانست این موضوع را روشن کند، اما ارائه نشده است.