پرش به محتوای اصلی

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

هفته گذشته من ReDAct را بررسی کردم، که تصمیمات عامل را به یک مدل جایگزین گران‌قیمت هدایت می‌کند زمانی که عدم قطعیت یک مدل ارزان از یک آستانه کالیبره شده فراتر می‌رود. آن مقاله در مورد "عدم قطعیت" کلی‌گویی‌های زیادی می‌کند — ارزشش را دارد که کمی درنگ کنیم تا بفهمیم حوزه تحقیقاتی واقعاً درباره اندازه‌گیری و کالیبره کردن آن چه می‌داند. مقاله گنگ و همکاران با عنوان "A Survey of Confidence Estimation and Calibration in Large Language Models" (NAACL 2024) بهترین نقطه برای شروع است: یک طبقه‌بندی سیستماتیک از آنچه کار می‌کند، آنچه کار نمی‌کند و آنچه هنوز هیچ‌کس اندازه‌گیری نکرده است.

مقاله

2026-07-09-confidence-estimation-calibration-llms-survey

گنگ، کای، وانگ، کوپل، ناکوف و گورویچ ادبیات نوظهور در زمینه تخمین اعتماد و کالیبراسیون LLM را در وظایف مختلف از پرسش و پاسخ چندگزینه‌ای تا تولید متن باز و ترجمه ماشینی بررسی می‌کنند. مشکل اصلی: LLMها می‌توانند هم بسیار دقیق باشند و هم کاملاً غیرقابل اعتماد، به شکلی که تشخیص این دو حالت از بیرون بسیار سخت است. این پیمایش فضای راه‌حل را به دو شاخه اصلی تقسیم می‌کند — روش‌های جعبه-سفید که از دسترسی به وضعیت‌های داخلی مدل بهره می‌برند، و روش‌های جعبه-سیاه که با مدل به عنوان یک ساختار مات برخورد می‌کنند — و در هر کدام، تمایز بیشتری بین تخمین اعتماد و کالیبراسیون پسینی (post hoc) قائل می‌شود.

این مقاله در NAACL 2024 (صفحات ۶۵۷۷–۶۵۹۵) منتشر شد که نسخه اصلاح شده در مارس ۲۰۲۴ از ارسالی در نوامبر ۲۰۲۳ توسط تیمی از دانشگاه TU Darmstadt، MBZUAI و دانشگاه هوش مصنوعی محمد بن زاید است.

ایده‌های کلیدی

  • اعتماد جعبه-سفید از طریق لوجیت‌ها: ساده‌ترین رویکرد از احتمالات در سطح توکن یا لگاریتم احتمال نرمال‌سازی شده بر اساس طول به عنوان سیگنال اعتماد استفاده می‌کند. این روش‌ها کار می‌کنند اما با یک ابهام اساسی روبرو هستند: احتمال پایین توکن می‌تواند بازتاب دهنده اعتماد پایین به واقعیت باشد یا صرفاً یک عبارت‌بندی غیرمعمول — مدل ممکن است در مورد انتخاب کلمات مردد باشد در حالی که نسبت به واقعیت زیربنایی اطمینان دارد.

  • اعتماد جعبه-سیاه مبتنی بر سازگاری (SelfCheckGPT): ماناکول و همکاران (EMNLP 2023) چندین نمونه خروجی را نمونه‌برداری کرده و سازگاری متقابل آن‌ها را با استفاده از BERTScore، NLI یا همپوشانی n-gram امتیازدهی می‌کنند. در اینجا نیازی به دسترسی به لوجیت نیست. بصیرت کلیدی: برای واقعیت‌هایی که LLM به خوبی می‌داند، نمونه‌های مکرر همگرا می‌شوند؛ برای واقعیت‌های توهمی، آن‌ها واگرا می‌شوند.

  • آنتروپی معنایی: فارکوهار و همکاران (Nature, 2024) پاسخ‌های معادل از نظر معنایی را قبل از محاسبه آنتروپی خوشه‌بندی می‌کنند. یک LLM ممکن است "پاریس" و "پایتخت فرانسه" را متفاوت بیان کند — آنتروپی خام توکن این‌ها را واگرا می‌بیند، اما آنتروپی معنایی خیر. این یک گام کیفی رو به جلو نسبت به سازگاری در سطح توکن است که این پیمایش آن را زمینه‌سازی می‌کند.

  • اعتماد کلامی ناکارآمد است: وقتی از مدل‌ها خواسته می‌شود درصد اعتماد خود را خروجی دهند، آن‌ها دچار بیش‌اطمینانی می‌شوند. کارهای تجربی (گروت و همکاران، TrustNLP در ACL 2024) نشان می‌دهد که GPT-3، GPT-3.5 و Vicuna همگی میانگین خطای کالیبراسیون مورد انتظار (ECE) بیش از ۰.۳۷۷ را برای اعتماد کلامی نشان می‌دهند، و پیش‌بینی‌ها بدون توجه به دقت واقعی در محدوده ۹۰–۱۰۰٪ خوشه‌بندی می‌شوند. حتی GPT-4 — که بهترین مدل کالیبره شده ارزیابی شده است — در هنگام استفاده از اعتماد کلامی برای تمایز بین پاسخ‌های درست و غلط، تنها به AUROC حدود ۶۲.۷٪ دست می‌یابد که به سختی بالاتر از شانس است.

  • تکنیک‌های کالیبراسیون بسته به وظیفه متفاوت است: برای طبقه‌بندی، کالیبراسیون زمینه‌ای (کاهش سوگیری پیشین کلاس تخمین زده شده با یک پرامپت خالی "[N/A]") و رفع سوگیری موقعیتی (PriDE) به سوگیری‌های سیستماتیک شناخته شده می‌پردازند. برای تولید متن، کالیبراسیون احتمال توالی (SLiC) مدل‌ها را روی خروجی‌های رتبه‌بندی شده تنظیم دقیق می‌کند. مقیاس‌بندی دما (Temperature scaling) — ساده‌ترین اصلاح پسینی — در بسیاری از تنظیمات همچنان رقابتی باقی مانده است.

  • هیچ بنچمارک واحدی وجود ندارد: مخرب‌ترین مشاهده ساختاری این پیمایش: هیچ بنچمارک واحدی وجود ندارد که روش‌های تخمین اعتماد را در وظایف و حوزه‌های مختلف پوشش دهد. این موضوع مقایسه دقیق روش‌ها را تقریباً غیرممکن می‌کند. این حوزه در حال مقایسه سیب با پرتقال است.

آنچه پابرجا می‌ماند — و آنچه نمی‌ماند

طبقه‌بندی ارائه شده مستحکم است. تمایز جعبه-سفید در مقابل جعبه-سیاه برای طراحی سیستم واقعاً مفید است، و برخورد با روش‌های مبتنی بر لوجیت در مورد محدودیت‌های آن‌ها صادقانه است — نویسندگان مستقیماً اشاره می‌کنند که احتمال توکن، اعتماد واقعی را با عدم قطعیت واژگانی خلط می‌کند. متخصصان معمولاً این خلط شدن را دست‌کم می‌گیرند.

جایی که پیمایش مرا ناامید می‌کند: این مقاله عمدتاً توصیفی است. تقریباً هیچ بنچمارک آزمایشی برای مقایسه مستقیم روش‌ها وجود ندارد و نویسندگان صراحتاً این موضوع را به عنوان یک محدودیت می‌پذیرند. من می‌توانم با یک نقشه روشن از فضای طراحی خارج شوم اما هیچ راهنمایی در مورد اینکه از کدام روش برای یک وظیفه جدید استفاده کنم ندارم.

نتایج اعتماد کلامی — AUROC حدود ۶۲.۷٪ برای خودِ اعتماد اعلام شده توسط GPT-4 — باید برای هر کسی که LLMها را در محیط عملیاتی مستقر می‌کند، یک دانش پایه و بدیهی باشد. اما اینطور نیست. مردم هنوز پرامپت‌هایی می‌فرستند که می‌پرسد "در مقیاس ۱ تا ۱۰، چقدر مطمئن هستی؟" و با پاسخ آن به عنوان یک مقدار معنادار برخورد می‌کنند. در حالی که اینطور نیست.

این پیمایش همچنین در مورد سوال کالیبراسیون RLHF ضعیف عمل کرده است: آیا آموزش پسینی با بازخورد انسانی کالیبراسیون مدل‌ها را بهتر می‌کند یا بدتر؟ شواهدی برای هر دو طرف وجود دارد و این پیمایش تا حد زیادی از آن عبور می‌کند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

داستان ایمنی ReDAct بر داشتن یک سیگنال عدم قطعیت کالیبره شده از مدل ارزان بنا شده است. این پیمایش روشن می‌کند که این کار در واقع چقدر دشوار است. سیگنال‌های مبتنی بر لوجیت در تنظیمات جعبه-سفید در دسترس هستند اما عدم قطعیت واژگانی و واقعی را با هم ترکیب می‌کنند. روش‌های مبتنی بر سازگاری در تنظیمات جعبه-سیاه کار می‌کنند اما به چندین نمونه به ازای هر تصمیم نیاز دارند — که برای یک عامل بازنویسی Beancount با توان عملیاتی بالا که دسته‌ای از ردیف‌های تراکنش را پردازش می‌کند، گران تمام می‌شود.

عملیاتی‌ترین یافته برای Bean Labs: آنتروپی معنایی، پاسخ‌های معادل از نظر معنایی را قبل از امتیازدهی سازگاری خوشه‌بندی می‌کند، که دقیقاً همان چیزی است که برای ردیف‌های دفتر کل اهمیت دارد؛ جایی که یک مدل ممکن است همان رابطه بدهکار/بستانکار را در چندین فرم نحوی متمایز بیان کند. یک عامل Beancount باید از خوشه‌بندی معنایی روی خروجی‌های نمونه‌برداری شده تراکنش‌ها استفاده کند — نه واریانس خام در سطح توکن — تا متوجه شود چه زمانی در حال توهم زدن نام یک حساب یا یک مبلغ است.

شکست کالیبراسیون در اعتماد کلامی یک هشدار مستقیم برای هر رابط کاربری است که سوال "هوش مصنوعی چقدر مطمئن است؟" را به کاربر نشان می‌دهد: به عددی که مدل تولید می‌کند اعتماد نکنید. به جای آن از یک کالیبراتور خارجی یا روش مبتنی بر سازگاری استفاده کنید، یا اصلاً آن را نمایش ندهید.

مطالعه بیشتر

  • Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — دقیق‌ترین روشی که از این چارچوب پیمایش بیرون می‌آید؛ ارزشش را دارد که به جای خلاصه پیمایش، متن کامل آن خوانده شود.
  • Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — روش مرجع مبتنی بر سازگاری؛ درک آن قبل از استقرار هرگونه سیگنال اعتماد جعبه-سیاه ضروری است.
  • Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP at ACL 2024 (arXiv:2405.02917) — کامل‌ترین بازرسی تجربی از اینکه چگونه اعتماد کلامی در مدل‌ها و وظایف مختلف از کار می‌افتد.