پرش به محتوای اصلی

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

شکایت همیشگی علیه RAG در محیط عملیاتی این است که وقتی واقعیت‌های مرتبط در ده‌ها سند با فرمت‌های ناسازگار پراکنده شده‌اند، بازیابی ابزاری نادقیق است. StructRAG (Li et al., ICLR 2025) با تبدیل متن بازیابی شده به یک ساختار مناسب برای وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن ساده — قبل از انجام استدلال، مستقیماً به این مشکل حمله می‌کند. انگیزه این کار یک ادعای نظریه شناختی است: انسان‌ها به طور طبیعی اطلاعات خام را هنگام انجام کارهای استدلالی پیچیده به بازنمایی‌های ساختاریافته تبدیل می‌کنند. فارغ از اینکه این چارچوب‌بندی بیشتر استعاره باشد یا مکانیسم، اعداد تجربی به دست آمده ارزش بررسی دقیق را دارند.

مقاله

2026-06-01-structrag-inference-time-hybrid-information-structurization

StructRAG یک خط لوله در زمان استنتاج با سه ماژول پیشنهاد می‌کند. اول، یک مسیریاب ساختار ترکیبی (Qwen2-7B-Instruct که با DPO روی ۹۰۰ جفت ترجیح مصنوعی تنظیم شده است) پیش‌بینی می‌کند که کدام یک از پنج نوع ساختار برای سوال ورودی و اسناد آن مناسب‌تر است. دوم، یک ساختارمندکننده دانش پراکنده (Qwen2-72B-Instruct) تکه‌های بازیابی شده را به آن فرمت انتخابی بازنویسی می‌کند. سوم، یک بهره‌بردار دانش ساختارمند سوال را به زیرسوال‌ها تجزیه کرده، قطعات ساختاریافته مرتبط را بازیابی و پاسخ نهایی را تولید می‌کند. پنج نوع ساختار عبارتند از: جدول (مقایسه‌های آماری)، گراف (زنجیره‌های چندگامی، کدگذاری شده به صورت سه‌تایی‌های سر–رابطه–ته)، الگوریتم (وظایف برنامه‌ریزی، نوشته شده به صورت شبه‌کد)، کاتالوگ (خلاصه‌سازی، شماره‌گذاری سلسله‌مراتبی) و تکه متن (تک‌گامی ساده، حالت پیش‌فرض RAG).

نویسندگان عمدتاً روی بنچمارک Loong (ارائه شده در EMNLP 2024) ارزیابی انجام داده‌اند؛ یک بنچمارک پرسش و پاسخ چندسندی که گزارش‌های مالی، پرونده‌های حقوقی و مقالات دانشگاهی را با ورودی‌هایی از ۱۰ هزار تا ۲۵۰ هزار توکن شامل می‌شود و چهار نوع وظیفه را پوشش می‌دهد: مکان‌یابی دقیق، مقایسه، خوشه‌بندی و زنجیره استدلال.

ایده‌های کلیدی

  • مسیریاب آموزش‌دیده با DPO به دقت ۹۴.۳۸٪ در انتخاب نوع ساختار می‌رسد، در حالی که Qwen2-72B-Instruct در حالت صفر-نمونه دقت ۵۰.۰۴٪ دارد — تصمیم مسیریابی حیاتی‌ترین جزء سیستم است. حذف مسیریاب (Ablation) امتیاز کلی LLM را از ۶۰.۳۸ به ۴۵.۳۳ کاهش می‌دهد.
  • در سخت‌ترین سطح طول سند (۲۰۰ هزار تا ۲۵۰ هزار توکن)، StructRAG امتیاز ۵۱.۴۲ را کسب می‌کند، در حالی که روش Context-Long امتیاز ۲۸.۹۲ و RAG امتیاز ۲۹.۲۹ را به دست می‌آورند — یک شکاف ۲۲ امتیازی که با افزایش زمینه (Context) بیشتر می‌شود. رویکرد استاندارد "همه چیز را داخل محتوا بریز" به شدت افت می‌کند، در حالی که StructRAG با وقار بیشتری با حجم بالا کنار می‌آید.
  • GraphRAG با وجود اعمال ساختار، امتیاز کلی ۴۰.۸۲ را در Loong کسب می‌کند (در مقابل ۶۹.۴۳ برای StructRAG) و برای هر پرسش ۲۱۷.۱ دقیقه زمان می‌برد، در حالی که StructRAG تنها ۹.۷ دقیقه زمان نیاز دارد. ساخت یک گراف دانش جهانی از قبل، هم کندتر و هم کم‌دقت‌تر از انتخاب فرمت مناسب در لحظه نیاز است.
  • در Podcast Transcripts (خلاصه‌سازی با انتهای باز)، StructRAG به نرخ پیروزی جفتی ۹۵.۷۵٪ نسبت به Long-Context دست می‌یابد که نشان می‌دهد سنتز ساختاریافته حتی در منابعی با ساختار کمتر، از رویکردهای تمام-زمینه بهتر عمل می‌کند.
  • امتیازهای تطابق دقیق (Exact-match یا EM) به طور مداوم از امتیازهای قضاوت شده توسط LLM عقب می‌مانند، زیرا ساختارمندسازی باعث تغییر کلمات ظاهری می‌شود (مثلاً "$1,308,463" در سلول جدول به "138463" تبدیل می‌شود) و یک مشکل سیستماتیک عدم تطابق توکن ایجاد می‌کند که باعث جریمه شدن در ارزیابی‌های خودکار می‌شود.

آنچه پابرجا می‌ماند — و آنچه نمی‌ماند

نتیجه اصلی واقعی است و داستان مطالعه حذفی (ablation) شفاف است: مسیریابی بیشترین اهمیت را دارد، پس از آن ساختارمندسازی و سپس بهره‌برداری. بهبود در اسناد طولانی قوی‌ترین یافته است — ۲۲ امتیاز در ۲۰۰ هزار توکن، نویز آماری نیست.

با این حال، من سه ملاحظه دارم. اول، پوشش بنچمارک محدود است. StructRAG فقط Loong و Podcast Transcripts را گزارش کرده است. بنچمارک‌های استاندارد چندگامی (مانند HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) غایب هستند، که ارزیابی StructRAG در مقایسه با بدنه بزرگ تحقیقات قبلی بازیابی را غیرممکن می‌کند. داوران ICLR احتمالاً این موضوع را مطرح کرده‌اند، اما مقاله در نسخه منتشر شده پاسخ مستقیمی ارائه نداده است.

دوم، مدل ارزیابی GPT-4 است. امتیازدهی "LLM به عنوان داور" در معرض سوگیری طول و ترجیحات سبکی است که ممکن است به خروجی‌های حاصل از فرآیند ساختارمندسازی مشابه تمایل داشته باشد، به ویژه زمانی که داور روی متون ساختاریافته مشابه آموزش دیده باشد. معیار EM یک اصلاح‌کننده است، اما نویسندگان آن را به جای شواهدی بر نقص متد، به عنوان محدودیتِ خودِ معیار معرفی می‌کنند.

سوم، StructRAG با یک زیربنای بزرگ تست شده است (Qwen2-72B-Instruct برای ساختارمندکننده و بهره‌بردار). مشخص نیست چه مقدار از بهبود ناشی از مسیریابی است و چه مقدار صرفاً به دلیل فراخوانی یک مدل قدرتمند برای بازنویسی و خلاصه‌سازی. یک مطالعه حذفی در برابر یک خط پایه پاسخ-مستقیم با همان اندازه مدل می‌توانست این موضوع را روشن کند، اما ارائه نشده است.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

دفترهای کل Beancount نمونه بارز مسئله "اطلاعات پراکنده" هستند. یک سوال آشتی‌دادن (reconciliation) ساده — "چرا دارایی‌های خالص من در سه ماهه سوم کاهش یافت؟" — ممکن است نیاز به خواندن ورودی‌های تراکنش از سه حساب، ارجاع متقابل به گزارش ترازنامه و ردیابی یک زنجیره اصلاحی چند مرحله‌ای داشته باشد. این‌ها تقریباً یک‌به‌یک بر انواع ساختار StructRAG منطبق هستند: جداول برای مقایسه ترازها، گراف‌ها برای زنجیره تراکنش‌ها و کاتالوگ‌ها برای خلاصه‌های دوره‌ای.

بینش مسیریابی به ویژه قابل استفاده است. یک عامل (Agent) Beancount متمرکز بر پرس‌وجو نباید همیشه تکه‌های متن را در متن زمینه رها کند؛ بلکه ابتدا باید بپرسد پاسخ به چه شکلی نیاز دارد. سوالات مربوط به روند تراز به جدول نیاز دارند. سوال "این زنجیره بازپرداخت را توضیح بده" به گراف نیاز دارد. سوال "هزینه‌های امسال را خلاصه کن" به کاتالوگ نیاز دارد. پیاده‌سازی صریح این تصمیم مسیریابی — حتی با یک مدل کوچک — می‌تواند به طور چشمگیری توهمات و اشتباهات عددی را که در تلاش‌های فعلی پرسش‌وپاسخ دفتر کل وجود دارد، کاهش دهد.

داستان تاخیر ۲۱۷ دقیقه در برابر ۹.۷ دقیقه نیز در عمل مهم است. برای یک عامل تعاملی Beancount، هزینه پیش‌نمایه‌سازی GraphRAG برای دفترهایی که مکرراً به‌روز می‌شوند بسیار زیاد است؛ رویکرد زمان استنتاج StructRAG با سناریوی دفتر کل که "نوشتن زیاد و پرس‌وجوی کم" است، سازگاری بهتری دارد.

نکته احتیاطی: ساختارمندکننده StructRAG یک فراخوانی LLM بزرگ برای هر پرسش است. برای تاریخچه‌های طولانی دفتر کل، این هزینه استنتاج می‌تواند قابل توجه باشد. ساختارمندسازی بهینه از نظر توکن — شاید با یک مدل کوچک تنظیم‌شده — یک سوال مهندسی باز است.

چه چیزی را در ادامه بخوانیم

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — مایکروسافت GraphRAG از خلاصه‌های جامعه برای پرس‌وجوهای جهانی استفاده می‌کند؛ درک جایی که ساختارمندسازی در زمان استنتاج StructRAG بر پیش‌نمایه‌سازی GraphRAG غلبه می‌کند، توازن معماری کلیدی است.
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — این بنچمارک ۱۳ مدل زبانی بزرگ را روی فایل‌های XBRL با جداول سلسله‌مراتبی تست می‌کند؛ تستی مستقیم برای اینکه آیا ساختارهای جدول و کاتالوگ StructRAG به فرمت‌های فایل ساختاریافته‌ای که دفترهای Beancount شبیه آن‌ها هستند، قابل انتقال است یا خیر.
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — عوامل هوشمند را در تصمیم‌گیری‌های مالی واقعی ارزیابی می‌کند که به ما اجازه می‌دهد اندازه بگیریم آیا استدلال ساختاریافته StructRAG واقعاً به کیفیت تصمیم‌گیری در مراحل بعدی، فراتر از دقت پرسش‌وپاسخ تک‌گامی، کمک می‌کند یا خیر.