یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

۱۱ تیر ۱۴۰۵ · زمان مطالعه 7 دقیقه

Mike Thrift

Marketing Manager

من از زمان نوشتن یادداشتی درباره یافته‌های اصلی لیو و همکاران، به مشکل «گم شدن در میان» فکر می‌کردم: یک بافت طولانی را به یک LLM بدهید، و او به طور قابل اعتمادی شواهدی را که در میانه پنهان شده‌اند نادیده می‌گیرد. مقاله «یافتن در میان: کالیبره کردن سوگیری توجه مکانی، بهره‌وری از بافت طولانی را بهبود می‌بخشد» (Hsieh et al., ACL Findings 2024, arXiv:2406.16008) مستقیم‌ترین و کاربردی‌ترین راه حلی را که تا به حال دیده‌ام ارائه می‌دهد: یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش که سوگیری مکانی مدل را از وزن‌های توجه آن کسر می‌کند و تا ۱۵ واحد درصد از دقت RAG را بازیابی می‌کند.

مقاله

2026-07-02-found-in-the-middle-calibrating-positional-attention-bias

سیه و همکاران با یک مشاهده تشخیصی شروع می‌کنند: مدل‌های زبانی بزرگ — حتی آن‌هایی که روی بافت‌های طولانی آموزش دیده‌اند — یک الگوی توجه U-شکل مداوم از خود نشان می‌دهند. توکن‌ها در ابتدا و انتهای ورودی، بدون توجه به مرتبط بودن یا نبودنشان، توجه بسیار بالایی دریافت می‌کنند، در حالی که توکن‌های میانی به طور سیستماتیک وزن کمتری می‌گیرند. نویسندگان این موضوع را به صورت تجربی به افت دقت «گم شدن در میان» مرتبط می‌دانند، نه اینکه آن را به عنوان یک پدیده مجزا در نظر بگیرند.

راه حل آن‌ها در مفهوم بسیار ظریف است. آن‌ها توجه را به دو مؤلفه جمع‌شونده تجزیه می‌کنند: مرتبط بودن (آنچه ما می‌خواهیم) و سوگیری مکانی (آنچه نمی‌خواهیم). برای جداسازی عبارت سوگیری، آن‌ها یک «سند ساختگی» — محتوای پرکننده غیر اطلاعاتی — را در هر موقعیت از همان بافت عبور می‌دهند و توزیع توجه حاصل را ثبت می‌کنند. توجه به آن سند ساختگی، تقریبی از پیشین مکانی خالص است. کسر کردن آن از امتیازات توجه واقعی، باقیمانده‌ای را به جا می‌گذارد که بهتر نشان‌دهنده مرتبط بودن واقعی است:

توجه کالیبره شده = Attn(document, k) − Attn(dummy, k)

سپس از امتیازات بازقیاس شده برای رتبه‌بندی مجدد یا وزن‌دهی مجدد به اسناد بازیابی شده قبل از مرحله نهایی تولید پاسخ استفاده می‌شود. نکته حیاتی این است که هیچ آموزشی لازم نیست. کالیبراسیون در زمان استنتاج روی ۱۶ لایه آخر رمزگشا و تمام سرهای توجه اعمال می‌شود. هزینه آن O(K) پاس پیشروی اضافی است که K تعداد اسناد بازیابی شده است — غیرچشمگیر اما قابل پیش‌بینی.

ایده‌های کلیدی

سوگیری توجه U-شکل ذاتی معماری مدل است و حتی در مدل‌هایی که صراحتاً با اهداف بافت طولانی آموزش دیده‌اند نیز باقی می‌ماند.
عبور دادن یک سند ساختگی (خالی/نویز) از همان بافت بازیابی، پیشین مکانی را ایزوله می‌کند؛ کسر کردن آن سوگیری را بدون هیچ‌گونه تنظیم دقیق (finetuning) حذف می‌کند.
معیار Recall@3 در مجموعه داده NaturalQuestion (با K=20 و قرار دادن سند اصلی در میانه) با کالیبراسیون از ۲۰.۵۲٪ به ۶۸.۳۲٪ جهش می‌کند؛ در K=10، از ۳۶.۳۸٪ به ۷۴.۲۷٪ می‌رسد.
دقت پاسخگویی به سوالات (End-to-end QA) زمانی که سند اصلی در میانه بافت باشد، ۶ تا ۱۵ واحد درصد بهبود می‌یابد؛ این بهبودها در ۲۲ مورد از ۲۴ پیکربندی آزمایشی صادق است.
این روش از شش خط پایه مقایسه‌ای عملکرد بهتری دارد: توجه وانیلا (vanilla attention)، رتبه‌بندی تولید پرس‌وجو، پرامپتینگ تولید مرتبط بودن، مرتب‌سازی توجه (Peysakhovich & Lerer 2023)، بازآرایی پرامپت و LongLLMLingua-rk.
این روش بر روی NaturalQuestion (۲۶۵۵ پرس‌وجوی واقعی روی ویکی‌پدیا) و SynthWiki (۹۹۰ ورودی مصنوعی تولید شده توسط GPT-4) ارزیابی شد.

چه چیزی پابرجاست — و چه چیزی نه

نتیجه اصلی خیره‌کننده است و من آن را باور دارم. شکاف Recall@3 از ۲۰.۵۲٪ به ۶۸.۳۲٪ برای اسناد اصلی در میانه بافت، عددی نیست که با بررسی دقیق از بین برود — این نشان‌دهنده چیزی واقعی درباره نحوه توزیع توجه است. طراحی بدون نیاز به آموزش یک مزیت کاربردی واقعی است: می‌توانید این را بدون دست زدن به وزن‌های مدل، روی هر خط لوله RAG موجود قرار دهید.

با این حال، من ملاحظاتی دارم. اول، رویکرد «سند ساختگی» فرض می‌کند که سوگیری مکانی تقریباً از نظر موقعیت تفکیک‌پذیر و جمع‌شونده است — یک تجزیه خطی که خود نویسندگان اشاره کرده‌اند ممکن است بیش از حد ساده‌انگاری باشد. سوگیری توجه واقعی ممکن است به روش‌های غیرخطی با محتوا در تعامل باشد. دوم، پاس‌های پیشروی اضافی O(K) به عنوان هزینه «قابل قبول» معرفی شده‌اند اما هرگز از نظر تأخیر یا هزینه بنچ‌مارک نشده‌اند. در یک سیستم تولیدی با ۲۰ مورد بازیابی، شما به جای یک پاس، ۲۱ پاس پیشرو برای هر پرس‌وجو اجرا می‌کنید. برای یک عامل Beancount که صدها تراکنش را تریاژ می‌کند، این ضریب اهمیت دارد.

سوم — و این جالب‌ترین محدودیت است — نویسندگان اشاره می‌کنند که سوگیری مکانی ممکن است در واقع برای وظایف خاصی مفید باشد. برای مثال، سوگیری تازگی (Recency bias) ممکن است همان چیزی باشد که باعث می‌شود مدل به ورودی‌های اخیر دفتر کل نسبت به ورودی‌های قدیمی‌تر وزن درستی بدهد. حذف بدون تبعیض سوگیری می‌تواند به وظایفی که در آن‌ها موقعیت یک سیگنال معتبر است، آسیب برساند. این موضوع تایید شده اما مطالعه نشده است.

در نهایت، آزمایش‌ها از NaturalQuestion و یک مجموعه داده مصنوعی استفاده می‌کنند. اسناد تخصصی مالی — جداول متراکم، پرونده‌های چندساله، ورودی‌های دفتر کل با ساختار تکراری — با متون ویکی‌پدیا در حوزه عمومی بسیار متفاوت هستند. این کالیبراسیون قبل از ادعای کارایی برای RAG مالی، باید روی آن توزیع‌ها اعتبارسنجی شود.

چرا این برای هوش مصنوعی مالی مهم است

ارتباط مستقیم واضح است: تمام گزارش‌های ما از زمان DocFinQA حول همین مشکل می‌چرخیدند. وقتی یک عامل Beancount برای پاسخ به سوالی مانند «تطبیق ماه مارس با صورت‌حساب بانکی»، ۲۰ ورودی مرتبط دفتر کل را بازیابی می‌کند، به ورودی‌های میانه پنجره بازیابی شده به طور سیستماتیک نسبت به ورودی‌های ابتدا و انتهای بافت، توجه کمتری می‌شود. این یک شکست در بازیابی نیست — این یک شکست در بخش تولید (generation) است که هیچ مقدار بهبودی در رتبه‌بندی بازیابی آن را حل نخواهد کرد.

کالیبراسیون «یافتن در میان» یک راهکار کاهش ریسک محتمل است که نیازی به بازآموزی مدل زیربنایی ندارد و می‌تواند مستقیماً در مرحله تولید هر خط لوله پاسخگویی به سوالات دفتر کل اعمال شود. نگرانی هزینه O(K) واقعی است اما قابل مدیریت است — یک پنجره بازیابی ۲۰ سندی با یک مدل با اندازه متوسط هنوز در محدوده عملی قرار دارد. چیزی که من دوست دارم قبل از استقرار آن ببینم، اعتبارسنجی روی داده‌های با ساختار Beancount است: آیا اصلاح مکانی به طور یکنواخت کمک می‌کند، یا ناخواسته سیگنال تازگی را که باعث می‌شود تراکنش‌های اخیر قابل اعتمادتر از تراکنش‌های قدیمی باشند، سرکوب می‌کند؟

اصل گسترده‌تر — اینکه مکانیسم‌های توجه، پیشین‌های مکانی را مستقل از مرتبط بودن محتوا کدگذاری می‌کنند و این پیشین‌ها را می‌توان بدون بازآموزی کالیبره کرد — ارزش نگه داشتن دارد. این امر راه را برای کالیبراسیون‌های مشابه برای سایر سوگیری‌ها باز می‌کند: سوگیری فراوانی توکن، نرمال‌سازی طول ورودی، و سوگیری پرحرفی در تولید.

مطالب پیشنهادی برای مطالعه

"Mitigate Position Bias in LLMs via Scaling a Single Hidden States Channel" (arXiv:2406.02536, ACL Findings 2025) — پیشنهاد مقیاس‌بندی یک بعد از حالت پنهان به جای کسر امتیازات توجه؛ ارزش مقایسه مستقیم با رویکرد «یافتن در میان» را دارد.
"Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey" (arXiv:2409.01980, NAACL 2025) — مورد بعدی در لیست مطالعه؛ رشته‌های AnoLLM، CausalTAD و AD-LLM را در یک طبقه‌بندی واحد به هم پیوند می‌دهد.
Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (arXiv:2307.03172, TACL 2023) — تشخیص اصلی که «یافتن در میان» به آن پاسخ می‌دهد؛ مطالعه آن برای درک پیش‌زمینه ضروری است.

Share on Twitter Follow @beancount_io

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

مقاله

ایده‌های کلیدی

چه چیزی پابرجاست — و چه چیزی نه

چرا این برای هوش مصنوعی مالی مهم است

مطالب پیشنهادی برای مطالعه

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله​

ایده‌های کلیدی​

چه چیزی پابرجاست — و چه چیزی نه​

چرا این برای هوش مصنوعی مالی مهم است​

مطالب پیشنهادی برای مطالعه​

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله

ایده‌های کلیدی

چه چیزی پابرجاست — و چه چیزی نه

چرا این برای هوش مصنوعی مالی مهم است

مطالب پیشنهادی برای مطالعه