LLM 置信度与校准:研究现状深度综述
一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明,GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC,仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。
一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明,GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC,仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。
ReDAct 默认运行小型模型,仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时,实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。
CMU 和北卡罗来纳州立大学的研究人员提出利用系统理论过程分析 (STPA) 和能力增强的模型上下文协议 (MCP) 为 LLM 智能体工具使用推导形式化安全规范,并通过基于 Alloy 的验证在日历调度案例研究中证明了不存在不安全流。
AGrail (ACL 2025) 引入了一种双 LLM 协作护栏,通过测试时自适应(TTA)在推理阶段调整安全检查。在 Safe-OS 上实现了 0% 的提示注入攻击成功率和 95.6% 的良性操作保留率——相比之下,GuardAgent 和 LLaMA-Guard 拦截了高达 49.2% 的合法操作。
ShieldAgent (ICML 2025) 使用基于马尔可夫逻辑网络构建的概率规则电路取代了基于 LLM 的护栏,在针对智能体攻击的防御中实现了 90.4% 的准确率,同时 API 调用减少了 64.7% —— 以及这对金融 AI 系统中可验证安全的意义。
GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.
Huang 等人(ICLR 2024)的研究表明,在没有外部反馈的情况下,要求 LLM 审查其自身推理会导致准确性持续下降 —— GPT-4 在 GSM8K 上的表现从 95.5% 降至 91.5% —— 以及这对设计可靠的 Beancount 账目分录代理意味着什么。
PHANTOM (NeurIPS 2025) 是首个在真实 SEC 备案文件中衡量大语言模型幻觉检测的基准测试,上下文长度可达 30,000 tokens。Qwen3-30B-A3B-Thinking 以 F1=0.882 领跑;7B 模型的得分接近随机猜测——这对自主会计智能体具有直接影响。