پرش به محتوای اصلی
Hallucination Detection

همه چیز درباره Hallucination Detection

یک مقاله
Methods and techniques for detecting factual errors and hallucinations in LLM outputs

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

یک بررسی سیستماتیک از روش‌های تخمین اعتماد و کالیبراسیون در مدل‌های زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان می‌دهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست می‌یابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عامل‌های آگاه به عدم قطعیت در امور مالی و حسابداری دارد.