گمشده در میان: سوگیری موقعیتی در مدلهای زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی
وقتی به ورودی DocFinQA نگاه میکنم — جایی که هم خط لولههای مبتنی بر بازیابی و هم مدلهای زبانی بزرگ (LLM) با زمینه طولانی در اسناد SEC با ۱۲۳ هزار توکن شکست خوردند — سوالی که بیپاسخ گذاشتم این بود که چرا. این مقاله توسط لیو و همکاران (TACL 2024, arXiv:2307.03172) پاسخی ساختاری است و مشخص شد که حالت شکست سادهتر و سرسختتر از آن چیزی است که انتظار داشتم.
مقاله
مقاله «گمشده در میان: چگونه مدل های زبانی از زمینههای طولانی استفاده میکنند» توسط نلسون اف. لیو، کوین لین، جان هویت، اشوین پارانجپه، میشل بویلاکوا، فابیو پترونی و پرسی لیانگ، دو آزمایش هدفمند را اجرا میکند: پاسخگویی به سوالات چند سندی در NaturalQuestions-Open (با ۱۰، ۲۰ و ۳۰ سند بازیابی شده) و بازیابی مصنوعی کلید-مقدار (با ۷۵، ۱۴۰ و ۳۰۰ جفت). در هر آزمایش، آنها به طور سیستماتیک مکان قرارگیری سند مرتبط یا جفت کلید-مقدار را در زمینه ورودی — ابتدا، میانه یا انتها — تغییر میدهند در حالی که بقیه موارد ثابت است. یافته شفاف است: عملکرد یک منحنی U-شکل را با پایینترین نقطه در میان زمینه دنبال میکند و این منحنی در تمام مدلهای آزمایششده ظاهر میشود.
ایدههای کلیدی
- منحنی U-شکل واقعی و ثابت است. در تنظیمات پرسش و پاسخ با ۲۰ سند، عملکرد در موقعیت اول تقریباً ۷۵٪ بود و در موقعیت ۱۰ به حدود ۵۵٪ کاهش یافت، پیش از آنکه در موقعیت ۲۰ به حدود ۷۲٪ بازگردد — شکافی حدوداً ۲۰ امتیازی بین لبهها و مرکز.
- تمام مدلها از الگوی مشابهی پیروی میکنند. مدلهای آزمایششده شام ل مدلهای بسته و متنباز، کوچک و بزرگ هستند: GPT-3.5-Turbo (4K و 16K)، GPT-4، Claude-1.3 (8K و 100K)، MPT-30B-Instruct و LongChat-13B. منحنی U-شکل در تکتک آنها ظاهر شد، از جمله مدلهایی که صراحتاً برای پنجرههای زمینه گسترده بازاریابی شده بودند.
- حتی Claude-1.3-100K نیز مصون نیست. نسخه ۱۰۰ هزار توکنی مشابه سایرین عمل کرد. داشتن یک پنجره زمینه طولانی به این معنا نیست که مدل واقعاً به طور یکنواخت به تمام بخشهای آن توجه میکند.
- خط پایه کتاب-بسته کفِ دلسردکنندهای را تعیین میکند. GPT-3.5-Turbo بدون هیچ سندی ۵۶.۱٪ از سوالات NaturalQuestions را به درستی پاسخ داد؛ با دسترسی مستقیم (oracle) به تنها یک سند مرتبط، این رقم به ۸۸.۳٪ رسید. اما در بدترین موقعیتهای میانی در تنظیمات ۲۰ سندی، عملکرد به زیر خط پایه کتاب-بسته سقوط کرد — به این معنی که افزودن زمینه بیشتر عملاً مضر بوده است.
- مدلهای رمزگذار-رمزگشا (Flan-T5-XXL, Flan-UL2) در طول آموزش خود قویتر هستند اما وقتی زمینهها از آن فراتر میروند، دچار افت میشوند. تفاوت معماری اهمیت دارد، اما هر دو هنوز در مقیاس بزرگ افت عملکرد نشان میدهند.
- علت ریشهای، ماسک کردن توجه علی (Causal Attention Masking) است. هر توکن فقط میتواند به توکنهای قبلی توجه کند، بنابراین موقعیتهای ابتدایی وزن توجه کل بیشتری را در سراسر مدل نسبت به موقعیتهای میانی جمعآوری میکنند. اثرات تازگی (Recency effects) نیز انتهای زمینه را به بالا میکشد.
چه چیزی معتبر است — و چه چیزی نیست
طراحی آزمایش در اینجا به طرز تحسینبرانگیزی تمیز است: موقعیت تنها متغیری است که دستکاری میشود، وظایف استانداردهای محک زنی هستند و یافتهها در طیف گستردهای از خانوادههای مدل تکرار میشوند. من هیچ ایرادی به نتیجه اصلی وارد نمیدانم.
آنچه برای من کمتر متقاعدکننده است، قاببندی وظیفه بازیابی کلید-مقدار به عنوان یک پروکسی معنادار برای استفاده واقعی است. جستجوهای UUID به UUID آزمایش میکنند که آیا یک مدل میتواند رشتهای حفظ شده را طوطیوار تکرار کند یا خیر، نه اینکه آیا میتواند کاری که نیاز به استدلال دارد انجام دهد. منحنی U-شکل در آنجا هم ظاهر میشود که ادعای سوگیری موقعیتی را تقویت میکند، اما به این معناست که مقاله دو پدیده متفاوت را با هم درآمیخته است: دقت بازیابی در وظایف انطباق دقیق و کیفی ت استدلال بر روی قطعات مرتبط. من میخواهم بدانم وقتی سند مرتبط قبل از پاسخ نهایی نیاز به استنتاج چند مرحلهای دارد، آیا منحنی U-شکل بدتر میشود یا بهتر، نه فقط تکرار کلمه به کلمه.
همچنین شکافی وجود دارد که نویسندگان عمدتاً به آن اذعان میکنند اما آن را پر نمیکنند: آنها هرگز آزمایش نمیکنند که آیا تنظیم دقیق دستورالعمل (instruction fine-tuning) یا RLHF حساسیت موقعیتی را تغییر میدهد یا خیر، بلکه فقط تأثیر پنجره زمینه بزرگتر را بررسی میکنند. با توجه به اینکه علت ریشهای معماری است (ماسک کردن علی)، گمان میکنم تنظیم دستورالعمل آن را حل نکند، اما مقاله این موضوع را تأیید نمیکند.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
این مقاله توضیح ساختاری را برای الگوی تجربی که مدام با آن برخورد میکنم ارائه میدهد. DocFinQA در پروندههای طولانی SEC شکست خورد. IRCoT و FLARE هر دو چندین قطعه را بازیابی کرده و قبل از استدلال آنها را به هم متصل میکنند. هر خط لوله RAG که در زمینه مالی دیدهام، قطعات بازیابی شده را به صورت متوالی در پرامپت میریزد و امیدوار است که مدل به مورد درست توجه کند.
پیامد این موضوع برای ایجنتهای Beancount ملموس است. اگر یک ایجنت ده ورودی دفتر کل را به عنوان زمینه بازیابی کند، ورودیهای موقعیتهای ۳ تا ۷ در بالاترین خطر نادیده گرفته شدن یا ایجاد توهم (hallucination) هستند. این یک مشکل بازیابی نیست — یک مشکل ارائه (presentation) است. دو پاسخ از این مقاله حاصل میشود: یا مرتبطترین ورودیها را در ابتدا (و انتها) قرار دهید، یا اصلاً آنها را به هم متصل نکنید و هر بار روی یک قطعه استدلال کنید.
این یافته همچنین روایت «مدلهای زبانی با زمینه طولانی» را پیچیده میکند. هر فصل یک مدل جدید پنجره زمینه بزرگتری را اعلام میکند. این مقاله میگوید طولانی بودن پنجره به این معنا نیست که اگر شواهد را به طور یکنواخت در آن توزیع کنید، همانطور که فکر میکنید عمل خواهد کرد. یک مدل با زمینه ۱۲۸ هزار توکنی که تراکنش مرتبط را در موقعیت ۶۰ هزار دفن میکند، بدتر از یک مدل با زمینه ۴ هزار توکنی است که دقیقاً قطعه درست را بازیابی میکند.
برای ایمنی بازنویسی (write-back safety)، پیامدها نگرانکننده است: اگر از مدل خواسته شود یک جلسه دفتر کل را خلاصه کند و قانون سیاستی مربوط به «این تراکنش را ثبت نکن» در میان یک پرامپت سیستم طولانی ظاهر شود، مدل ممکن است طوری رفتار کند که انگار هرگز آن قانون را نخوانده است.
آنچه در ادامه باید خواند
- «پیدا شده در میان: چگونه مدلهای زبانی با استفاده از رمزگذاری موقعیتی Plug-and-Play از زمینههای طولانی بهتر استفاده میکنند» (Zhang et al., arXiv:2403.04797) — رمزگذاری موقعیتی چند مقیاسی (Ms-PoE) را به عنوان یک اصلاح بدون نیاز به آموزش از طریق مقیاسبندی RoPE پیشنهاد میکند؛ ادعای بهبود تا ۳.۸ امتیاز در Zero-SCROLLS را دارد که مستقیماً به منحنی U-شکل میپردازد.
- «هرگز در میان گم نشوید: تسلط بر پاسخگویی به سوالات در زمینه طولانی با آموزش تجزیهمحور مستقل از موقعیت» (arXiv:2311.09198) — رویکردی مخالف را در پیش میگیرد و مدل را آموزش میدهد تا صراحتاً نسبت به موقعیت بیتفاوت باشد؛ مقایسه با Ms-PoE مشخص میکند که آیا تنظیم دقیق یا ترفندهای زمان استنتاج اهرم بهتری هستند.
- «کاهش سوگیری موقعیتی در مدلهای زبانی بزرگ از طریق مقیاسبندی یک بعد واحد» (arXiv:2406.02536) — بعد خاص حالتهای مخفی موقعیتی را که مسئول سوگیری است شناسایی کرده و بدون نیاز به آموزش مجدد آن را مقیاسبندی میکند؛ جراحیترین اصلاح پیشنهادی تا به امروز، مرتبط با استقرار مدلهای موجود بدون آموزش مجدد.
