跳到主要内容

LLM 置信度与校准:研究现状深度综述

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

上周我介绍了 ReDAct,当低成本模型的不确定性超过校准阈值时,它会将代理决策路由到昂贵的备选模型。那篇论文对“不确定性”有很多泛泛的论述——值得停下来了解一下学术界在衡量和校准不确定性方面到底掌握了哪些知识。Geng 等人的《大型语言模型中的置信度估计与校准综述》(NAACL 2024)是一个很好的起点:它对哪些方法有效、哪些无效以及哪些尚未被衡量进行了系统性的分类。

论文简介

2026-07-09-confidence-estimation-calibration-llms-survey

Geng、Cai、Wang、Koeppl、Nakov 和 Gurevych 调查了关于 LLM 置信度估计和校准的新兴文献,任务涵盖从多项选择题(QA)到开放式生成和机器翻译。核心问题:LLM 既可以非常准确,也可以完全不可靠,而这在外部很难区分。该综述将解决方案空间分为两个主要分支——利用内部模型状态的白盒方法,以及将模型视为不透明的黑盒方法——并在每个分支中进一步区分了置信度估计和事后校准。

该论文发表于 NAACL 2024(第 6577–6595 页),由来自达姆施塔特工业大学、MBZUAI 和穆罕默德·本·扎耶德人工智能大学的团队于 2023 年 11 月提交,并于 2024 年 3 月修订。

核心观点

  • 通过 Logit 获取白盒置信度:最简单的方法使用 Token 级别的概率或长度归一化对数似然作为置信度信号。这些方法有效,但面临一个根本性的歧义:低 Token 概率可能反映出事实置信度低,也可能仅仅是不寻常的措辞——模型可能对词语选择不确定,但对底层事实很确定。

  • 基于一致性的黑盒置信度 (SelfCheckGPT):Manakul 等人 (EMNLP 2023) 对多个补全结果进行采样,并使用 BERTScore、NLI 或 n-gram 重叠度对其相互一致性进行评分。无需 Logit 访问权限。核心见解:对于 LLM 熟知的事实,重复采样会趋于一致;对于虚构的事实,采样则会发散。

  • 语义熵:Farquhar 等人 (Nature, 2024) 在计算熵之前将语义等效的答案聚类。LLM 可能会对“巴黎”和“法国首都”使用不同的措辞——原始 Token 熵将这些视为发散,而语义熵则不然。这比 Token 级别的一致性迈进了一大步,综述对此进行了背景说明。

  • 言语置信度失效:当被要求输出置信度百分比时,模型会陷入过度自信。实证研究 (Groot 等人,ACL 2024 TrustNLP) 发现,GPT-3、GPT-3.5 和 Vicuna 的言语置信度平均预期校准误差 (ECE) 均超过 0.377,无论实际准确率如何,预测结果都集中在 90–100% 范围内。即使是评估中校准最好的模型 GPT-4,在使用言语置信度区分正确和错误答案时,其 AUROC 也仅为约 62.7%,仅略高于随机猜测。

  • 校准技术因任务而异:对于分类任务,上下文校准(减去用空“[N/A]”提示词估计的类别先验偏差)和位置去偏 (PriDE) 解决了已知的系统性偏差。对于生成任务,序列似然校准 (SLiC) 在排序后的补全结果上微调模型。温度缩放 (Temperature scaling)——最简单的事后修复方案——在许多场景中仍具竞争力。

  • 缺乏统一基准:该综述最具批判性的结构性观察是:目前还没有一个涵盖跨任务和跨领域置信度估计方法的统一基准。这使得严谨地比较各种方法几乎不可能。该领域正在进行不具可比性的评估。

哪些观点站得住脚,哪些站不住

这种分类法很扎实。白盒与黑盒的区别对系统设计非常有帮助,而对基于 Logit 方法的处理也很坦诚地指出了它们的局限性——作者直接指出,Token 概率将事实置信度与词汇不确定性混为一谈。从业者往往低估了这种混淆。

令我感到沮丧的地方:这篇综述在很大程度上是描述性的。几乎没有比较各种方法的实验性基准,作者也明确承认这是其局限性。读完之后,我得到了一个清晰的设计空间蓝图,但对于新任务应该使用哪种方法却缺乏指导。

言语置信度的结果——GPT-4 在其自述置信度上的 AUROC 约为 62.7%——应该成为任何在生产环境中部署 LLM 的人的必备常识。但事实并非如此。人们仍然在发布诸如“在 1-10 分的范围内,你有多大信心?”之类的提示词,并将答案视为有意义的。其实并非如此。

综述对 RLHF 校准问题的论述也较少:人类反馈的训练后处理是让模型校准得更好还是更差?目前正反两方面都有证据,而综述在很大程度上回避了这个问题。

为什么这对金融 AI 很重要

ReDAct 的安全性建立在拥有来自廉价模型的校准不确定性信号之上。这篇综述清楚地表明了实现这一点有多难。Logit 信号在白盒设置中可用,但会将词汇不确定性和事实不确定性混淆。基于一致性的方法在黑盒设置中有效,但每次决策需要多次采样——对于处理大批量交易条目的高吞吐量 Beancount 回写代理来说,成本太高。

对于 Bean Labs 来说,最实用的发现是:语义熵在评分一致性之前先将语义等效的答案聚类,这对于账本条目至关重要,因为模型可能会以多种语法不同的形式表达相同的借贷关系。Beancount 代理应该对采样的账本条目补全结果使用语义聚类,而不是原始的 Token 级方差,以检测何时幻觉出了账户名称或金额。

言语置信度的校准失败是对任何向用户展示“AI 置信度有多高?”的 UI 的直接警告:不要信任模型产生的数字。请改用外部校准器或基于一致性的方法,或者根本不要展示它。

延伸阅读

  • Farquhar 等人,《使用语义熵检测大型语言模型中的幻觉》,Nature, 2024 —— 这是从该综述框架中诞生的最严谨的方法;值得阅读全文,而不仅仅看综述摘要。
  • Manakul 等人,《SelfCheckGPT:生成式大型语言模型的零资源黑盒幻觉检测》,EMNLP 2023 (arXiv:2303.08896) —— 经典的基于一致性的方法;在部署任何黑盒置信度信号之前必须理解。
  • Groot 等人,《过度自信是关键:大型语言模型和视觉语言模型中的言语不确定性评估》,TrustNLP at ACL 2024 (arXiv:2405.02917) —— 对言语置信度在不同模型和任务中失效情况的最全面实证审计。