跳到主要内容

面向 LLM 智能体的不确定性感知委派:何时从小型模型切换到大型模型

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

自主智能体面临着既要廉价又要可靠的压力,这两个目标背道而驰:前沿模型可靠但昂贵,小型模型廉价但易出错。Piatrashyn 等人的 ReDAct 论文 (arXiv:2604.07036) 提出了一条折中路线 —— 默认运行小型模型,仅在小型模型不确定时才委派给大型模型。我之所以读这篇论文,是因为这种张力定义了每一个生产环境下的 Beancount 回写智能体:你希望系统能廉价地处理常规分类,并在非常规情况损坏账本之前将其上报。

论文解读

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (推理-委派-行动) 基于 ReAct 提示范式,引入了一种双模型智能体架构。默认由一个廉价的小型模型(如 Qwen3-80B、Llama3.3-70B 或 Llama4-Maverick)处理每一步。在每一步中,它先生成推理路径,然后生成行动。系统仅针对行动生成步骤测量 Token 级的不确定性,并将其与校准后的阈值进行比较。如果不确定性超过该阈值,则由大型昂贵模型(如 GPT-5.2、Qwen3-235B 或 Qwen3-480B)重新运行该步骤;否则执行小型模型的行动。

不确定性度量是基于信息论的,仅需要 Token 级的对数概率:序列概率(负对数概率之和)、困惑度(长度归一化)和平均 Token 熵(各 Token 位置的平均熵)。阈值是通过在一组留出的小型模型运行结果中进行校准的,选择能使每个回合达到目标大型模型调用次数 K 的值。

核心观点

  • 在行动步骤而非推理步骤测量不确定性。 一项针对 2,411 个 ALFWorld 步骤的辅助实验发现,推理层面的不确定性在区分正确与错误步骤方面的辨别力较差;行动层面的困惑度(PPL)作为正确性的预测指标,具有显著更高的 ROC-AUC 和 PRR。
  • 使用 Qwen3-80B + GPT-5.2 的 PPL 委派在 ALFWorld 上达到了 80.8% ± 1.1%,超过了仅使用 GPT-5.2 的 78.3% ± 1.9%,而成本仅为 16.25 美元(相比 45.21 美元) —— 节省了约 64%。
  • 实践中约 15% 的步骤被委派,以匹配约 10% 的校准目标;这种差距的出现是因为失败(较短)的轨迹对委派预算的贡献不成比例。
  • 以相同比例进行的随机委派得分为 77.0% —— 仍优于仅使用小型模型(68.3%),但差于不确定性量化(UQ)引导的委派。不确定性信号确实起到了作用,而不仅仅是增加调用大型模型的次数。
  • MiniGrid 显示出的提升空间较小。 采用 PPL 委派的 Qwen3-80B + GPT-5.2 达到了 95.0%,而仅使用 GPT-5.2 为 99.0%。当小型模型在结构上存在不足时,较小的任务词汇量会为委派方法创造一个更难突破的上限。
  • 委派分布取决于具体任务。 ALFWorld 在后期步骤中委派更多(提示历史更长),而 MiniGrid 则显示出与智能体初始位置相关的双峰模式。这意味着固定阈值校准在同类任务族中的泛化效果优于跨任务族。

哪些结论站得住脚,哪些存疑

核心经验发现是可信的:行动字符串的困惑度是衡量给定步骤是否即将出错的一个合理指标。ReAct 中的推理/行动分解自然提供了一个附加不确定性信号的清晰切入点,而辅助的正确性预测实验为这一设计选择提供了真正的机制性辩护。

让我不太信服的是:在 ALFWorld 上“超过单大型模型”的结果。80.8% ± 1.1% 与 78.3% ± 1.9% 在一个标准差范围内重合。作者将其归功于互补优势 —— 小型模型处理常规步骤,避免了大型模型偶尔的冒险行为 —— 但并没有针对每一步的消融实验来证实这种说法。这很可能只是噪声。

基准测试的选择也有局限性。ALFWorld 和 MiniGrid 是基于文本的家庭模拟和网格世界导航 —— 这些狭窄的环境没有涉及工具调用、代码执行或多文档检索。在那些更丰富的场景(即与 Beancount 相关的场景)中,不确定性校准委派是否成立仍未得到解答。此外,选择 GPT-5.2 作为大型模型使得成本数据难以复现。

校准程序存在一个未解决的循环性:阈值是在用于校准的同一分布上选择的,没有留出验证集。作者承认校准(小型模型 rollouts)和评估(混合 rollouts)之间存在分布偏移,但将阈值鲁棒性留作未来研究。

为什么这对金融 AI 至关重要

Beancount 回写智能体在处理每笔交易时都面临着完全相同的委派问题。常规的杂货购买需要分类;而带有部分匹配摘要的异常多路外币掉期则需要人工干预。目前的做法要么是全自动化(有风险),要么是全人工审核(昂贵)。ReDAct 的框架提供了一个可行的中间地带:运行廉价模型,当候选账目分录的困惑度超过校准阈值时进行上报。

财务背景增加了论文未提及的两个考量。首先,这里的委派通常意味着暂停并询问用户,而不是调用更大的 LLM —— 账本的准确性标准是用户的意图,而非基准测试分数。其次,提交 Beancount 分录的不可逆性高于在 ALFWorld 中放错物品。校准目标 K 应该更保守地调优,在委派前倾向于降低小型模型的精确度要求,而不是相反。

即便有这些注意事项,64% 的成本削减信号仍值得认真对待。如果一个 Beancount 智能体处理一个月的交易,只有 15% 的分类决策需要使用昂贵模型,那么运行一个高性能回写智能体的经济效益就会好得多。

延伸阅读

  • KnowNo (Ren et al., 2023, CoRL): "请求帮助的机器人:大型语言模型规划器的不确定性对齐" —— 使用共形预测来校准何时请求帮助的覆盖率保证。ReDAct 没有与其进行比较;在选择生产方案之前,理解共形保证与阈值校准之间的权衡至关重要。[arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. updated, NAACL 2024) —— 大型语言模型置信度估计与校准综述:对言语化置信度、基于采样的以及事后校准方法进行了系统分类;这是决定困惑度是否是正确的不确定性代理,还是校准后的 Logit 缩放表现更好的理论背景。[arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) —— 在工具调用决策(调用工具 vs 依赖模型知识)上应用了结构相似的不确定性阈值,减少了超过 50% 的工具调用;这是针对智能体不确定性中工具使用维度的直接补充。[https://uala-agent.github.io/]