پرش به محتوای اصلی

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

وقتی به ورودی DocFinQA نگاه می‌کنم — جایی که هم خط لوله‌های مبتنی بر بازیابی و هم مدل‌های زبانی بزرگ (LLM) با زمینه طولانی در اسناد SEC با ۱۲۳ هزار توکن شکست خوردند — سوالی که بی‌پاسخ گذاشتم این بود که چرا. این مقاله توسط لیو و همکاران (TACL 2024, arXiv:2307.03172) پاسخی ساختاری است و مشخص شد که حالت شکست ساده‌تر و سرسخت‌تر از آن چیزی است که انتظار داشتم.

مقاله

2026-06-27-lost-in-the-middle-language-models-long-contexts

مقاله «گمشده در میان: چگونه مدل‌های زبانی از زمینه‌های طولانی استفاده می‌کنند» توسط نلسون اف. لیو، کوین لین، جان هویت، اشوین پارانجپه، میشل بویلاکوا، فابیو پترونی و پرسی لیانگ، دو آزمایش هدفمند را اجرا می‌کند: پاسخ‌گویی به سوالات چند سندی در NaturalQuestions-Open (با ۱۰، ۲۰ و ۳۰ سند بازیابی شده) و بازیابی مصنوعی کلید-مقدار (با ۷۵، ۱۴۰ و ۳۰۰ جفت). در هر آزمایش، آن‌ها به طور سیستماتیک مکان قرارگیری سند مرتبط یا جفت کلید-مقدار را در زمینه ورودی — ابتدا، میانه یا انتها — تغییر می‌دهند در حالی که بقیه موارد ثابت است. یافته شفاف است: عملکرد یک منحنی U-شکل را با پایین‌ترین نقطه در میان زمینه دنبال می‌کند و این منحنی در تمام مدل‌های آزمایش‌شده ظاهر می‌شود.

ایده‌های کلیدی

  • منحنی U-شکل واقعی و ثابت است. در تنظیمات پرسش و پاسخ با ۲۰ سند، عملکرد در موقعیت اول تقریباً ۷۵٪ بود و در موقعیت ۱۰ به حدود ۵۵٪ کاهش یافت، پیش از آنکه در موقعیت ۲۰ به حدود ۷۲٪ بازگردد — شکافی حدوداً ۲۰ امتیازی بین لبه‌ها و مرکز.
  • تمام مدل‌ها از الگوی مشابهی پیروی می‌کنند. مدل‌های آزمایش‌شده شامل مدل‌های بسته و متن‌باز، کوچک و بزرگ هستند: GPT-3.5-Turbo (4K و 16K)، GPT-4، Claude-1.3 (8K و 100K)، MPT-30B-Instruct و LongChat-13B. منحنی U-شکل در تک‌تک آن‌ها ظاهر شد، از جمله مدل‌هایی که صراحتاً برای پنجره‌های زمینه گسترده بازاریابی شده بودند.
  • حتی Claude-1.3-100K نیز مصون نیست. نسخه ۱۰۰ هزار توکنی مشابه سایرین عمل کرد. داشتن یک پنجره زمینه طولانی به این معنا نیست که مدل واقعاً به طور یکنواخت به تمام بخش‌های آن توجه می‌کند.
  • خط پایه کتاب-بسته کفِ دلسردکننده‌ای را تعیین می‌کند. GPT-3.5-Turbo بدون هیچ سندی ۵۶.۱٪ از سوالات NaturalQuestions را به درستی پاسخ داد؛ با دسترسی مستقیم (oracle) به تنها یک سند مرتبط، این رقم به ۸۸.۳٪ رسید. اما در بدترین موقعیت‌های میانی در تنظیمات ۲۰ سندی، عملکرد به زیر خط پایه کتاب-بسته سقوط کرد — به این معنی که افزودن زمینه بیشتر عملاً مضر بوده است.
  • مدل‌های رمزگذار-رمزگشا (Flan-T5-XXL, Flan-UL2) در طول آموزش خود قوی‌تر هستند اما وقتی زمینه‌ها از آن فراتر می‌روند، دچار افت می‌شوند. تفاوت معماری اهمیت دارد، اما هر دو هنوز در مقیاس بزرگ افت عملکرد نشان می‌دهند.
  • علت ریشه‌ای، ماسک کردن توجه علی (Causal Attention Masking) است. هر توکن فقط می‌تواند به توکن‌های قبلی توجه کند، بنابراین موقعیت‌های ابتدایی وزن توجه کل بیشتری را در سراسر مدل نسبت به موقعیت‌های میانی جمع‌آوری می‌کنند. اثرات تازگی (Recency effects) نیز انتهای زمینه را به بالا می‌کشد.

چه چیزی معتبر است — و چه چیزی نیست

طراحی آزمایش در اینجا به طرز تحسین‌برانگیزی تمیز است: موقعیت تنها متغیری است که دستکاری می‌شود، وظایف استانداردهای محک زنی هستند و یافته‌ها در طیف گسترده‌ای از خانواده‌های مدل تکرار می‌شوند. من هیچ ایرادی به نتیجه اصلی وارد نمی‌دانم.

آنچه برای من کمتر متقاعدکننده است، قاب‌بندی وظیفه بازیابی کلید-مقدار به عنوان یک پروکسی معنادار برای استفاده واقعی است. جستجوهای UUID به UUID آزمایش می‌کنند که آیا یک مدل می‌تواند رشته‌ای حفظ شده را طوطی‌وار تکرار کند یا خیر، نه اینکه آیا می‌تواند کاری که نیاز به استدلال دارد انجام دهد. منحنی U-شکل در آنجا هم ظاهر می‌شود که ادعای سوگیری موقعیتی را تقویت می‌کند، اما به این معناست که مقاله دو پدیده متفاوت را با هم درآمیخته است: دقت بازیابی در وظایف انطباق دقیق و کیفیت استدلال بر روی قطعات مرتبط. من می‌خواهم بدانم وقتی سند مرتبط قبل از پاسخ نهایی نیاز به استنتاج چند مرحله‌ای دارد، آیا منحنی U-شکل بدتر می‌شود یا بهتر، نه فقط تکرار کلمه به کلمه.

همچنین شکافی وجود دارد که نویسندگان عمدتاً به آن اذعان می‌کنند اما آن را پر نمی‌کنند: آن‌ها هرگز آزمایش نمی‌کنند که آیا تنظیم دقیق دستورالعمل (instruction fine-tuning) یا RLHF حساسیت موقعیتی را تغییر می‌دهد یا خیر، بلکه فقط تأثیر پنجره زمینه بزرگتر را بررسی می‌کنند. با توجه به اینکه علت ریشه‌ای معماری است (ماسک کردن علی)، گمان می‌کنم تنظیم دستورالعمل آن را حل نکند، اما مقاله این موضوع را تأیید نمی‌کند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

این مقاله توضیح ساختاری را برای الگوی تجربی که مدام با آن برخورد می‌کنم ارائه می‌دهد. DocFinQA در پرونده‌های طولانی SEC شکست خورد. IRCoT و FLARE هر دو چندین قطعه را بازیابی کرده و قبل از استدلال آن‌ها را به هم متصل می‌کنند. هر خط لوله RAG که در زمینه مالی دیده‌ام، قطعات بازیابی شده را به صورت متوالی در پرامپت می‌ریزد و امیدوار است که مدل به مورد درست توجه کند.

پیامد این موضوع برای ایجنت‌های Beancount ملموس است. اگر یک ایجنت ده ورودی دفتر کل را به عنوان زمینه بازیابی کند، ورودی‌های موقعیت‌های ۳ تا ۷ در بالاترین خطر نادیده گرفته شدن یا ایجاد توهم (hallucination) هستند. این یک مشکل بازیابی نیست — یک مشکل ارائه (presentation) است. دو پاسخ از این مقاله حاصل می‌شود: یا مرتبط‌ترین ورودی‌ها را در ابتدا (و انتها) قرار دهید، یا اصلاً آن‌ها را به هم متصل نکنید و هر بار روی یک قطعه استدلال کنید.

این یافته همچنین روایت «مدل‌های زبانی با زمینه طولانی» را پیچیده می‌کند. هر فصل یک مدل جدید پنجره زمینه بزرگتری را اعلام می‌کند. این مقاله می‌گوید طولانی بودن پنجره به این معنا نیست که اگر شواهد را به طور یکنواخت در آن توزیع کنید، همان‌طور که فکر می‌کنید عمل خواهد کرد. یک مدل با زمینه ۱۲۸ هزار توکنی که تراکنش مرتبط را در موقعیت ۶۰ هزار دفن می‌کند، بدتر از یک مدل با زمینه ۴ هزار توکنی است که دقیقاً قطعه درست را بازیابی می‌کند.

برای ایمنی بازنویسی (write-back safety)، پیامدها نگران‌کننده است: اگر از مدل خواسته شود یک جلسه دفتر کل را خلاصه کند و قانون سیاستی مربوط به «این تراکنش را ثبت نکن» در میان یک پرامپت سیستم طولانی ظاهر شود، مدل ممکن است طوری رفتار کند که انگار هرگز آن قانون را نخوانده است.

آنچه در ادامه باید خواند

  • «پیدا شده در میان: چگونه مدل‌های زبانی با استفاده از رمزگذاری موقعیتی Plug-and-Play از زمینه‌های طولانی بهتر استفاده می‌کنند» (Zhang et al., arXiv:2403.04797) — رمزگذاری موقعیتی چند مقیاسی (Ms-PoE) را به عنوان یک اصلاح بدون نیاز به آموزش از طریق مقیاس‌بندی RoPE پیشنهاد می‌کند؛ ادعای بهبود تا ۳.۸ امتیاز در Zero-SCROLLS را دارد که مستقیماً به منحنی U-شکل می‌پردازد.
  • «هرگز در میان گم نشوید: تسلط بر پاسخ‌گویی به سوالات در زمینه طولانی با آموزش تجزیه‌محور مستقل از موقعیت» (arXiv:2311.09198) — رویکردی مخالف را در پیش می‌گیرد و مدل را آموزش می‌دهد تا صراحتاً نسبت به موقعیت بی‌تفاوت باشد؛ مقایسه با Ms-PoE مشخص می‌کند که آیا تنظیم دقیق یا ترفندهای زمان استنتاج اهرم بهتری هستند.
  • «کاهش سوگیری موقعیتی در مدل‌های زبانی بزرگ از طریق مقیاس‌بندی یک بعد واحد» (arXiv:2406.02536) — بعد خاص حالت‌های مخفی موقعیتی را که مسئول سوگیری است شناسایی کرده و بدون نیاز به آموزش مجدد آن را مقیاس‌بندی می‌کند؛ جراحی‌ترین اصلاح پیشنهادی تا به امروز، مرتبط با استقرار مدل‌های موجود بدون آموزش مجدد.