یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود میبخشد
من از زمان نوشتن یادداشتی درباره یافتههای اصلی لیو و همکاران، به مشکل «گم شدن در میان» فکر میکردم: یک بافت طولانی را به یک LLM بدهید، و او به طور قابل اعتمادی شواهدی را که در میانه پنهان شدهاند نادیده میگیرد. مقاله «یافتن در میان: کالیبره کردن سوگیری توجه مکانی، بهرهوری از بافت طولانی را بهبود میبخشد» (Hsieh et al., ACL Findings 2024, arXiv:2406.16008) مستقیمترین و کاربردیترین راه حلی را که تا به حال دیدهام ارائه میدهد: یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش که سوگیری مکانی مدل را از وزنهای توجه آن کسر میکند و تا ۱۵ واحد درصد از دقت RAG را بازیابی میکند.
مقاله
سیه و همکاران با یک مشاهده تشخیصی شروع میکنند: مدلهای زبانی بزرگ — حتی آنهایی که روی بافتهای طولانی آموزش دیدهاند — یک الگوی توجه U-شکل مداوم از خود نشان میدهند. توکنها در ابتدا و انتهای ورودی، بدون توجه به مرتبط بودن یا نبودنشان، توجه بسیار بالایی دریافت میکنند، در حالی که توکنهای میانی به طور سیستماتیک وزن کمتری میگیرند. نویسندگان این موضوع را به صورت تجربی به افت دقت «گم شدن در میان» مرتبط میدانند، نه اینکه آن را به عنوان یک پدیده مجزا در نظر بگیرند.
راه حل آنها در مفهوم بسیار ظریف است. آنها توجه را به دو مؤلفه جمعشونده تجزیه میکنند: مرتبط بودن (آنچه ما میخواهیم) و سوگیری مکانی (آنچه نمیخواهیم). برای جداسازی عبارت سوگیری، آنها یک «سند ساختگی» — محتوای پرکننده غیر اطلاعاتی — را در هر موقعیت از همان بافت عبور میدهند و توزیع توجه حاصل را ثبت میکنند. توجه به آن سند ساختگی، تقریبی از پیشین مکانی خالص است. کسر کردن آن از امتیازات توجه واقعی، باقیماندهای را به جا میگذارد که بهتر نشاندهنده مرتبط بودن واقعی است:
توجه کالیبره شده = Attn(document, k) − Attn(dummy, k)
سپس از امتیازات بازقیاس شده برای رتبهبندی مجدد یا وزندهی مجدد به اسناد بازیابی شده قبل از مرحله نهایی تولید پاسخ استفاده میشود. نکته حیاتی این است که هیچ آموزشی لازم نیست. کالیبراسیون در زمان استنتاج روی ۱۶ لایه آخر رمزگشا و تمام سرهای توجه اعمال میشود. هزینه آن O(K) پاس پیشروی اضافی است که K تعداد اسناد بازیابی شده است — غیرچشمگیر اما قابل پیشبینی.
ایدههای کلیدی
- سوگیری توجه U-شکل ذاتی معماری مدل است و حتی در مدلهایی که صراحتاً با اهداف بافت طولانی آموزش دیدهاند نیز باقی میماند.
- عبور دادن یک سند ساختگی (خالی/نویز) از همان بافت بازیابی، پیشین مکانی را ایزوله میکند؛ کسر کردن آن سوگیری را بدون هیچگونه تنظیم دقیق (finetuning) حذف میکند.
- معیار Recall@3 در مجموعه داده NaturalQuestion (با K=20 و قرار دادن سند اصلی در میانه) با کالیبراسیون از ۲۰.۵۲٪ به ۶۸.۳۲٪ جهش میکند؛ در K=10، از ۳۶.۳۸٪ به ۷۴.۲۷٪ میرسد.
- دقت پاسخگویی به سوالات (End-to-end QA) زمانی که سند اصلی در میانه بافت باشد، ۶ تا ۱۵ واحد درصد بهبود مییابد؛ این بهبودها در ۲۲ مورد از ۲۴ پیکربندی آزمایشی صادق است.
- این روش از شش خط پایه مقایسهای عملکرد بهتری دارد: توجه وانیلا (vanilla attention)، رتبهبندی تولید پرسوجو، پرامپتینگ تولید مرتبط بودن، مرتبسازی توجه (Peysakhovich & Lerer 2023)، بازآرایی پرامپت و LongLLMLingua-rk.
- این روش بر روی NaturalQuestion (۲۶۵۵ پرسوجوی واقعی روی ویکیپدیا) و SynthWiki (۹۹۰ ورودی مصنوعی تولید شده توسط GPT-4) ارزیابی شد.
چه چیزی پابرجاست — و چه چیزی نه
نتیجه اصلی خیرهکننده است و من آن را باور دارم. شکاف Recall@3 از ۲۰.۵۲٪ به ۶۸.۳۲٪ برای اسناد اصلی در میانه بافت، عددی نیست که با بررسی دقیق از بین برود — این نشاندهنده چیزی واقعی درباره نحوه توزیع توجه است. طراحی بدون نیاز به آموزش یک مزیت کاربردی واقعی است: میتوانید این را بدون دست زدن به وزنهای مدل، روی هر خط لوله RAG موجود قرار دهید.
با این حال، من ملاحظاتی دارم. اول، رویکرد «سند ساختگی» فرض میکند که سوگیری مکانی تقریباً از نظر موق عیت تفکیکپذیر و جمعشونده است — یک تجزیه خطی که خود نویسندگان اشاره کردهاند ممکن است بیش از حد سادهانگاری باشد. سوگیری توجه واقعی ممکن است به روشهای غیرخطی با محتوا در تعامل باشد. دوم، پاسهای پیشروی اضافی O(K) به عنوان هزینه «قابل قبول» معرفی شدهاند اما هرگز از نظر تأخیر یا هزینه بنچمارک نشدهاند. در یک سیستم تولیدی با ۲۰ مورد بازیابی، شما به جای یک پاس، ۲۱ پاس پیشرو برای هر پرسوجو اجرا میکنید. برای یک عامل Beancount که صدها تراکنش را تریاژ میکند، این ضریب اهمیت دارد.
سوم — و این جالبترین محدودیت است — نویسندگان اشاره میکنند که سوگیری مکانی ممکن است در واقع برای وظایف خاصی مفید باشد. برای مثال، سوگیری تازگی (Recency bias) ممکن است همان چیزی باشد که باعث میشود مدل به ورودیهای اخیر دفتر کل نسبت به ورودیهای قدیمیتر وزن درستی بدهد. حذف بدون تبعیض سوگیری میتواند به وظایفی که در آنها موقعیت یک سیگنال معتبر است، آسیب برساند. این موضوع تایید شده اما مطالعه نشده است.
در نهایت، آزمایشها از NaturalQuestion و یک مجموعه داده مصنوعی استفاده میکنند. اسناد تخصصی مالی — جداول متراکم، پروندههای چندساله، ورودیهای دفتر کل با ساختار تکراری — با متون ویکیپدیا در حوزه عمومی بسیار متفاوت هستند. این کالیبراسیون قب ل از ادعای کارایی برای RAG مالی، باید روی آن توزیعها اعتبارسنجی شود.
چرا این برای هوش مصنوعی مالی مهم است
ارتباط مستقیم واضح است: تمام گزارشهای ما از زمان DocFinQA حول همین مشکل میچرخیدند. وقتی یک عامل Beancount برای پاسخ به سوالی مانند «تطبیق ماه مارس با صورتحساب بانکی»، ۲۰ ورودی مرتبط دفتر کل را بازیابی میکند، به ورودیهای میانه پنجره بازیابی شده به طور سیستماتیک نسبت به ورودیهای ابتدا و انتهای بافت، توجه کمتری میشود. این یک شکست در بازیابی نیست — این یک شکست در بخش تولید (generation) است که هیچ مقدار بهبودی در رتبهبندی بازیابی آن را حل نخواهد کرد.
کالیبراسیون «یافتن در میان» یک راهکار کاهش ریسک محتمل است که نیازی به بازآموزی مدل زیربنایی ندارد و میتواند مستقیماً در مرحله تولید هر خط لوله پاسخگویی به سوالات دفتر کل اعمال شود. نگرانی هزینه O(K) واقعی است اما قابل مدیریت است — یک پنجره بازیابی ۲۰ سندی با یک مدل با اندازه متوسط هنوز در محدوده عملی قرار دارد. چیزی که من د وست دارم قبل از استقرار آن ببینم، اعتبارسنجی روی دادههای با ساختار Beancount است: آیا اصلاح مکانی به طور یکنواخت کمک میکند، یا ناخواسته سیگنال تازگی را که باعث میشود تراکنشهای اخیر قابل اعتمادتر از تراکنشهای قدیمی باشند، سرکوب میکند؟
اصل گستردهتر — اینکه مکانیسمهای توجه، پیشینهای مکانی را مستقل از مرتبط بودن محتوا کدگذاری میکنند و این پیشینها را میتوان بدون بازآموزی کالیبره کرد — ارزش نگه داشتن دارد. این امر راه را برای کالیبراسیونهای مشابه برای سایر سوگیریها باز میکند: سوگیری فراوانی توکن، نرمالسازی طول ورودی، و سوگیری پرحرفی در تولید.
مطالب پیشنهادی برای مطالعه
- "Mitigate Position Bias in LLMs via Scaling a Single Hidden States Channel" (arXiv:2406.02536, ACL Findings 2025) — پیشنهاد مقیاسبندی یک بعد از حالت پنهان به جای کسر امتیازات توجه؛ ارزش مقایسه مستقیم با رویکرد «یافتن در میان» را دارد.
- "Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey" (arXiv:2409.01980, NAACL 2025) — مورد بعدی در لیست مطالعه؛ رشتههای AnoLLM، CausalTAD و AD-LLM را در یک طبقهبندی واحد به هم پیوند میدهد.
- Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (arXiv:2307.03172, TACL 2023) — تشخیص اصلی که «یافتن در میان» به آن پاسخ میدهد؛ مطالعه آن برای درک پیشزمینه ضروری است.
