LLM 置信度与校准:研究现状深度综述
一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明,GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC,仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。
一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明,GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC,仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。