跳到主要内容

自一致性:多数投票采样提升思维链准确率

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

LOG-009 介绍了 PAL,它将算术运算卸载到 Python 解释器,从而使模型无需自行计算。自一致性(Self-consistency)解决的是另一个正交问题:如果模型在大多数时间里推理正确,但并非总是如此,该怎么办?事实证明,答案是统计学上的,而非架构上的——而且效果显著得令人惊讶。

论文简介

2026-04-24-self-consistency-chain-of-thought

由 Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery 和 Denny Zhou 发表的《自一致性提升语言模型中的思维链推理》(Self-Consistency Improves Chain of Thought Reasoning in Language Models,ICLR 2023,arXiv:2203.11171)引入了一种解码策略,该策略将单一的贪婪思维链路径替换为对多条采样路径的多数投票。其核心直觉非常简练:一个复杂的推理问题通常只有一个正确答案,但通往该答案的有效路径有很多;而错误答案更有可能是由特异性错误导致的,这些错误不太可能都指向同一个错误结果。

该方法是即插即用的。你可以直接沿用现有的思维链(CoT)提示词,在非零温度系数(temperature)下采样 N 个生成结果,从每个结果中提取最终答案,并返回出现频率最高的答案。无需微调,无需额外模型,也无需额外的人工标注。

关键思想

  • 样本量与温度系数:论文在温度系数 0.7 下,针对每个问题使用了 40 条推理路径。这并非经过超参数调优的神奇数字——消融实验显示,增益在大约 20–30 个样本后趋于平稳,因此 40 是一个保守的数值。
  • 相比标准思维链的显著提升:GSM8K 提升 17.9%,SVAMP 提升 11.0%,AQuA 提升 12.2%,StrategyQA 提升 6.4%,ARC-challenge 提升 3.9%——这些全是准确率的绝对提升,且使用的是相同的模型和提示词。
  • 各模型的 GSM8K 结果:在 text-davinci-002 (GPT-3) 上,自一致性将准确率从 78.7% 提高到 86.5%。在 Codex 上,从 74.5% 提高到 82.3%。这种增益在不同模型家族中表现一致。
  • 零训练成本:一切都发生在推理阶段。该方法适用于任何可以通过温度系数 > 0 进行采样的黑盒 API。
  • 针对可提取答案的多数投票:当答案是离散的(如数字、字母选项)时,聚合步骤非常清晰。对于开放式生成,论文对于如何定义“最一致”描述较少——作者也承认了这一局限性。

哪些观点经得起推敲,哪些不能

其实证增益是真实的,已被多次复制,且该方法确实非常有用。但一些结构性的弱点值得审视。

首先,成本随样本数量线性增长。在推理时采样 40 条路径的 Token 预算是单条路径的 40 倍。对于延迟和 API 成本敏感的任务——比如每晚处理数百笔交易的智能体——这并非小事。后续研究(《早停自一致性》,ICLR 2024)解决了这个问题:通过在投票达到置信度阈值时立即停止采样,可以在不产生明显准确率损失的情况下,将 GSM8K 上的采样量减少 80%。原论文完全没有讨论成本,这是一个明显的疏忽。

其次,当模型出现系统性错误时,多数投票假设会失效。如果模型在所有 40 条路径中都一致地读错某个特定货币转换率或误用某项税务规则,那么错误答案将赢得投票。自一致性放大的是最常见的错误,而非正确答案。这是核心的认识论差距:该方法增加了模型信念分布内的“精确度”(precision),但在分布中心本身就是错误答案时,它对“校准度”(calibration)毫无帮助。

第三,Wang & Wang (2025, arXiv:2503.16974) 通过 50 次独立运行直接研究了大语言模型在金融和会计任务中的一致性。他们发现,二分类和情感分析通过单次采样就已经接近完美的可复现性,而复杂任务(预测、生成)则表现出明显的波动。他们的实践发现是:仅聚合 3–5 次运行就能显著提高复杂任务的一致性——这是自一致性思想的一个更廉价的版本。

为什么这对金融 AI 很重要

涉及多步算术运算的 Beancount 账本操作——税务计算、汇率调整后的成本基准、折旧表、发票对账——正是单次贪婪解码不可靠,但正确答案唯一且可验证的任务类型。自一致性是一种廉价的干预手段,应该成为任何输出可验证(资产负债表是否平衡?)的金融智能体任务的默认配置。

更深远的意义在于架构层面。自一致性将推理变成了投票集成。对于涉及回写安全性的操作——例如将日记账分录发布到账本的智能体——我会希望基于多数投票的置信度进行约束:只有当 40 条路径中有 35 条达成一致时才提交。意见分歧是一个信号,表明智能体应该将问题升级给人工处理,而不是直接写入。这是一个具体的、可实施的安全闸门,虽然消耗了推理预算,但并未增加工程复杂性。

系统性偏差导致的失效模式在税务和监管规则中尤为重要,因为已知模型会幻觉出特定司法管辖区的细节。在这种情况下,PAL (LOG-009) 是正确的解决方案:将计算完全卸载。自一致性和 PAL 是互补的——PAL 处理算术的正确性;自一致性处理歧义和推理的可靠性。

延伸阅读

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) —— 将自一致性从“路径投票”扩展到“路径搜索”,这在推理空间是分支而非平行时非常重要。
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) —— 解决成本问题的方案;在保持准确率的同时,将 GSM8K 上的采样减少了 80% 以上。
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) —— 使用大语言模型作为裁判,将多数投票扩展到开放式生成,解决了原论文回避的聚合差距。