اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان میدهند
هفته گذشته من ReDAct را بررسی کردم، که تصمیمات عامل را به یک مدل جایگزین گرانقیمت هدایت میکند زمانی که عدم قطعیت یک مدل ارزان از یک آستانه کالیبره شده فراتر میرود. آن مقاله در مورد "عدم قطعیت" کلیگوییهای زیادی میکند — ارزشش را دارد که کمی درنگ کنیم تا بفهمیم حوزه تحقیقاتی واقعاً درباره اندازهگیری و کالیبره کردن آن چه میداند. مقاله گنگ و همکاران با عنوان "A Survey of Confidence Estimation and Calibration in Large Language Models" (NAACL 2024) بهترین نقطه برای شروع است: یک طبقهبندی سیستماتیک از آنچه کار میکند، آنچه کار نمیکند و آنچه هنوز هیچکس اندازهگیری نکرده است.
مقاله
گنگ، کای، وانگ، کوپل، ناکوف و گورویچ ادبیات نوظهور در زمینه تخمین اعتماد و کالیبراسیون LLM را در وظایف مختلف از پرسش و پاسخ چندگزینهای تا تولید متن باز و ترجمه ماشینی بررسی میکنند. مشکل اصلی: LLMها میتوانند هم بسیار دقیق باشند و هم کاملاً غیرقابل اعتماد، به شکلی که تشخیص این دو حالت از بیرون بسیار سخت است. این پیمایش فضای راهحل را به دو شاخه اصلی تقسیم میکند — روشهای جعبه-سفید که از دسترسی به وضعیتهای داخلی مدل بهره میبرند، و روشهای جعبه-سیاه که با مدل به عنوان یک ساختار مات برخورد میکنند — و در هر کدام، تمایز بیشتری بین تخمین اعتماد و کالیبراسیون پسینی (post hoc) قائل میشود.
این مقاله در NAACL 2024 (صفحات ۶۵۷۷–۶۵۹۵) منتشر شد که نسخه اصلاح شده در مارس ۲۰۲۴ از ارسالی در نوامبر ۲۰۲۳ توسط تیمی از دانشگاه TU Darmstadt، MBZUAI و دانشگاه هوش مصنوعی محمد بن زاید است.
ایدههای کلیدی
-
اعتماد جعبه-سفید از طریق لوجیتها: سادهترین رویکرد از احتمالات در سطح توکن یا لگاریتم احتمال نرمالسازی شده بر اساس طول به عنوان سیگنال اعتماد استفاده میکند. این روشها کار میکنند اما با یک ابهام اساسی روبرو هستند: احتمال پایین توکن میتواند بازتاب دهنده اعتماد پایین به واقعیت باشد یا صرفاً یک عبارتبندی غیرمعمول — مدل ممکن است در مورد انتخاب کلمات مردد باشد در حالی که نسبت به واقعیت زیربنایی اطمینان دارد.
-
اعتماد جعبه-سیاه مبتنی بر سازگاری (SelfCheckGPT): ماناکول و همکاران (EMNLP 2023) چندین نمونه خروجی را نمونهبرداری کرده و سازگاری متقابل آنها را با استفاده از BERTScore، NLI یا همپوشانی n-gram امتیازدهی میکنند. در اینجا نیازی به دسترسی به لوجیت نیست. بصیرت کلیدی: برای واقعیتهایی که LLM به خوبی میداند، نمونههای مکرر همگرا میشوند؛ برای واقعیتهای توهمی، آنها واگرا میشوند.
-
آنتروپی معنایی: فارکوهار و همکاران (Nature, 2024) پاسخهای معادل از نظر معنایی را قبل از محاسبه آنتروپی خوشهبندی میکنند. یک LLM ممکن است "پاریس" و "پایتخت فرانسه" را متفاوت بیان کند — آنتروپی خام توکن اینها را واگرا میبیند، اما آنتروپی معنایی خیر. این یک گام کیفی رو به جلو نسبت به سازگاری در سطح توکن است که ا ین پیمایش آن را زمینهسازی میکند.
-
اعتماد کلامی ناکارآمد است: وقتی از مدلها خواسته میشود درصد اعتماد خود را خروجی دهند، آنها دچار بیشاطمینانی میشوند. کارهای تجربی (گروت و همکاران، TrustNLP در ACL 2024) نشان میدهد که GPT-3، GPT-3.5 و Vicuna همگی میانگین خطای کالیبراسیون مورد انتظار (ECE) بیش از ۰.۳۷۷ را برای اعتماد کلامی نشان میدهند، و پیشبینیها بدون توجه به دقت واقعی در محدوده ۹۰–۱۰۰٪ خوشهبندی میشوند. حتی GPT-4 — که بهترین مدل کالیبره شده ارزیابی شده است — در هنگام استفاده از اعتماد کلامی برای تمایز بین پاسخهای درست و غلط، تنها به AUROC حدود ۶۲.۷٪ دست مییابد که به سختی بالاتر از شانس است.
-
تکنیکهای کالیبراسیون بسته به وظیفه متفاوت است: برای طبقهبندی، کالیبراسیون زمینهای (کاهش سوگیری پیشین کلاس تخمین زده شده با یک پرامپت خالی "[N/A]") و رفع سوگیری موقعیتی (PriDE) به سوگیریهای سیستماتیک شناخته شده میپردازند. برای تولید متن، کالیبراسیون احتمال توالی (SLiC) مدلها را روی خروجیهای رتبهبندی شده تنظیم دقیق میکند. مقیاسبندی دما (Temperature scaling) — سادهترین اصلاح پسینی — در بسیاری از تنظیمات همچنان رقابتی باقی مانده است.
-
هیچ بنچمارک واحدی وجود ندارد: مخربترین مشاهده ساختاری این پیمایش: هیچ بنچمارک واحدی وجود ندارد که روشهای تخمین اعتماد را در وظایف و حوزههای مختلف پوشش دهد. این موضوع مقایسه دقیق روشها را تقریباً غیرممکن میکند. این حوزه در حال مقایسه سیب با پرتقال است.
آنچه پابرجا میماند — و آنچه نمیماند
طبقهبندی ارائه شده مستحکم است. تمایز جعبه-سفید در مقابل جعبه-سیاه برای طراحی سیستم واقعاً مفید است، و برخورد با روشهای مبتنی بر لوجیت در مورد محدودیتهای آنها صادقانه است — نویسندگان مستقیماً اشاره میکنند که احتمال توکن، اعتماد واقعی را با عدم قطعیت واژگانی خلط میکند. متخصصان معمولاً این خلط شدن را دستکم میگیرند.
جایی که پیمایش مرا ناامید میکند: این مقاله عمدتاً توصیفی است. تقریباً هیچ بنچمارک آزمایشی برای مقایسه مستقیم روشها وجود ندارد و نویسندگان صراحتاً این موضوع را به عنوان یک محدودیت میپذیرند. من میتوانم با یک نقشه روشن از فضای طراحی خارج شوم اما هیچ راهنمایی د ر مورد اینکه از کدام روش برای یک وظیفه جدید استفاده کنم ندارم.
نتایج اعتماد کلامی — AUROC حدود ۶۲.۷٪ برای خودِ اعتماد اعلام شده توسط GPT-4 — باید برای هر کسی که LLMها را در محیط عملیاتی مستقر میکند، یک دانش پایه و بدیهی باشد. اما اینطور نیست. مردم هنوز پرامپتهایی میفرستند که میپرسد "در مقیاس ۱ تا ۱۰، چقدر مطمئن هستی؟" و با پاسخ آن به عنوان یک مقدار معنادار برخورد میکنند. در حالی که اینطور نیست.
این پیمایش همچنین در مورد سوال کالیبراسیون RLHF ضعیف عمل کرده است: آیا آموزش پسینی با بازخورد انسانی کالیبراسیون مدلها را بهتر میکند یا بدتر؟ شواهدی برای هر دو طرف وجود دارد و این پیمایش تا حد زیادی از آن عبور میکند.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
داستان ایمنی ReDAct بر داشتن یک سیگنال عدم قطعیت کالیبره شده از مدل ارزان بنا شده است. این پیمایش روشن میکند که این کار در واقع چقدر دشوار است. سیگنالهای مبتنی بر لوجیت در تنظیمات جعبه-سفید در دسترس هستند اما عدم قطعیت واژگانی و واقعی را با هم ترکیب میکنند. روشهای مبتنی بر سازگاری در تنظیمات جعبه-سیاه کار میکنند اما به چندین نمونه به ازای هر تصمیم نیاز دارند — که برای یک عامل بازنویسی Beancount با توان عملیاتی بالا که دستهای از ردیفهای تراکنش را پردازش میکند، گران تمام میشود.
عملیاتیترین یافته برای Bean Labs: آنتروپی معنایی، پاسخهای معادل از نظر معنایی را قبل از امتیازدهی سازگاری خوشهبندی میکند، که دقیقاً همان چیزی است که برای ردیفهای دفتر کل اهمیت دارد؛ جایی که یک مدل ممکن است همان رابطه بدهکار/بستانکار را در چندین فرم نحوی متمایز بیان کند. یک عامل Beancount باید از خوشهبندی معنایی روی خروجیهای نمونهبرداری شده تراکنشها استفاده کند — نه واریانس خام در سطح توکن — تا متوجه شود چه زمانی در حال توهم زدن نام یک حساب یا یک مبلغ است.
شکست کالیبراسیون در اعتماد کلامی یک هشدار مستقیم برای هر رابط کاربری است که سوال "هوش مصنوعی چقدر مطمئن است؟" را به کاربر نشان میدهد: به عددی که مدل تولید میکند اعتماد نکنید. به جای آن از یک کالیبراتور خارجی یا روش مبتنی بر سازگاری استفاده کنید، یا اصلاً آن را نمایش ندهید.