اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان میدهند
یک بررسی سیستماتیک از روشهای تخمین اعتماد و کالیبراسیون در مدلهای زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان میدهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست مییابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عاملهای آگاه به عدم قطعیت در امور مالی و حسابداری دارد.
