面向 LLM 智能体的不确定性感知委派：何时从小型模型切换到大型模型

2026年7月1日 · 阅读需 7 分钟

Mike Thrift

Marketing Manager

自主智能体面临着既要廉价又要可靠的压力，这两个目标背道而驰：前沿模型可靠但昂贵，小型模型廉价但易出错。Piatrashyn 等人的 ReDAct 论文 (arXiv:2604.07036) 提出了一条折中路线 —— 默认运行小型模型，仅在小型模型不确定时才委派给大型模型。我之所以读这篇论文，是因为这种张力定义了每一个生产环境下的 Beancount 回写智能体：你希望系统能廉价地处理常规分类，并在非常规情况损坏账本之前将其上报。

论文解读

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (推理-委派-行动) 基于 ReAct 提示范式，引入了一种双模型智能体架构。默认由一个廉价的小型模型（如 Qwen3-80B、Llama3.3-70B 或 Llama4-Maverick）处理每一步。在每一步中，它先生成推理路径，然后生成行动。系统仅针对行动生成步骤测量 Token 级的不确定性，并将其与校准后的阈值进行比较。如果不确定性超过该阈值，则由大型昂贵模型（如 GPT-5.2、Qwen3-235B 或 Qwen3-480B）重新运行该步骤；否则执行小型模型的行动。

不确定性度量是基于信息论的，仅需要 Token 级的对数概率：序列概率（负对数概率之和）、困惑度（长度归一化）和平均 Token 熵（各 Token 位置的平均熵）。阈值是通过在一组留出的小型模型运行结果中进行校准的，选择能使每个回合达到目标大型模型调用次数 K 的值。

核心观点

在行动步骤而非推理步骤测量不确定性。 一项针对 2,411 个 ALFWorld 步骤的辅助实验发现，推理层面的不确定性在区分正确与错误步骤方面的辨别力较差；行动层面的困惑度（PPL）作为正确性的预测指标，具有显著更高的 ROC-AUC 和 PRR。
使用 Qwen3-80B + GPT-5.2 的 PPL 委派在 ALFWorld 上达到了 80.8% ± 1.1%，超过了仅使用 GPT-5.2 的 78.3% ± 1.9%，而成本仅为 16.25 美元（相比 45.21 美元） —— 节省了约 64%。
实践中约 15% 的步骤被委派，以匹配约 10% 的校准目标；这种差距的出现是因为失败（较短）的轨迹对委派预算的贡献不成比例。
以相同比例进行的随机委派得分为 77.0% —— 仍优于仅使用小型模型（68.3%），但差于不确定性量化（UQ）引导的委派。不确定性信号确实起到了作用，而不仅仅是增加调用大型模型的次数。
MiniGrid 显示出的提升空间较小。 采用 PPL 委派的 Qwen3-80B + GPT-5.2 达到了 95.0%，而仅使用 GPT-5.2 为 99.0%。当小型模型在结构上存在不足时，较小的任务词汇量会为委派方法创造一个更难突破的上限。
委派分布取决于具体任务。 ALFWorld 在后期步骤中委派更多（提示历史更长），而 MiniGrid 则显示出与智能体初始位置相关的双峰模式。这意味着固定阈值校准在同类任务族中的泛化效果优于跨任务族。

哪些结论站得住脚，哪些存疑

核心经验发现是可信的：行动字符串的困惑度是衡量给定步骤是否即将出错的一个合理指标。ReAct 中的推理/行动分解自然提供了一个附加不确定性信号的清晰切入点，而辅助的正确性预测实验为这一设计选择提供了真正的机制性辩护。

让我不太信服的是：在 ALFWorld 上“超过单大型模型”的结果。80.8% ± 1.1% 与 78.3% ± 1.9% 在一个标准差范围内重合。作者将其归功于互补优势 —— 小型模型处理常规步骤，避免了大型模型偶尔的冒险行为 —— 但并没有针对每一步的消融实验来证实这种说法。这很可能只是噪声。

基准测试的选择也有局限性。ALFWorld 和 MiniGrid 是基于文本的家庭模拟和网格世界导航 —— 这些狭窄的环境没有涉及工具调用、代码执行或多文档检索。在那些更丰富的场景（即与 Beancount 相关的场景）中，不确定性校准委派是否成立仍未得到解答。此外，选择 GPT-5.2 作为大型模型使得成本数据难以复现。

校准程序存在一个未解决的循环性：阈值是在用于校准的同一分布上选择的，没有留出验证集。作者承认校准（小型模型 rollouts）和评估（混合 rollouts）之间存在分布偏移，但将阈值鲁棒性留作未来研究。

为什么这对金融 AI 至关重要

Beancount 回写智能体在处理每笔交易时都面临着完全相同的委派问题。常规的杂货购买需要分类；而带有部分匹配摘要的异常多路外币掉期则需要人工干预。目前的做法要么是全自动化（有风险），要么是全人工审核（昂贵）。ReDAct 的框架提供了一个可行的中间地带：运行廉价模型，当候选账目分录的困惑度超过校准阈值时进行上报。

财务背景增加了论文未提及的两个考量。首先，这里的委派通常意味着暂停并询问用户，而不是调用更大的 LLM —— 账本的准确性标准是用户的意图，而非基准测试分数。其次，提交 Beancount 分录的不可逆性高于在 ALFWorld 中放错物品。校准目标 K 应该更保守地调优，在委派前倾向于降低小型模型的精确度要求，而不是相反。

即便有这些注意事项，64% 的成本削减信号仍值得认真对待。如果一个 Beancount 智能体处理一个月的交易，只有 15% 的分类决策需要使用昂贵模型，那么运行一个高性能回写智能体的经济效益就会好得多。

面向 LLM 智能体的不确定性感知委派：何时从小型模型切换到大型模型

论文解读

核心观点

哪些结论站得住脚，哪些存疑

为什么这对金融 AI 至关重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文解读​

核心观点​

哪些结论站得住脚，哪些存疑​

为什么这对金融 AI 至关重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文解读

核心观点

哪些结论站得住脚，哪些存疑

为什么这对金融 AI 至关重要

延伸阅读