自一致性：多数投票采样提升思维链准确率

2026年4月24日 · 阅读需 6 分钟

Mike Thrift

Marketing Manager

LOG-009 介绍了 PAL，它将算术运算卸载到 Python 解释器，从而使模型无需自行计算。自一致性（Self-consistency）解决的是另一个正交问题：如果模型在大多数时间里推理正确，但并非总是如此，该怎么办？事实证明，答案是统计学上的，而非架构上的——而且效果显著得令人惊讶。

论文简介

2026-04-24-self-consistency-chain-of-thought

由 Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery 和 Denny Zhou 发表的《自一致性提升语言模型中的思维链推理》（Self-Consistency Improves Chain of Thought Reasoning in Language Models，ICLR 2023，arXiv:2203.11171）引入了一种解码策略，该策略将单一的贪婪思维链路径替换为对多条采样路径的多数投票。其核心直觉非常简练：一个复杂的推理问题通常只有一个正确答案，但通往该答案的有效路径有很多；而错误答案更有可能是由特异性错误导致的，这些错误不太可能都指向同一个错误结果。

该方法是即插即用的。你可以直接沿用现有的思维链（CoT）提示词，在非零温度系数（temperature）下采样 N 个生成结果，从每个结果中提取最终答案，并返回出现频率最高的答案。无需微调，无需额外模型，也无需额外的人工标注。

关键思想

样本量与温度系数：论文在温度系数 0.7 下，针对每个问题使用了 40 条推理路径。这并非经过超参数调优的神奇数字——消融实验显示，增益在大约 20–30 个样本后趋于平稳，因此 40 是一个保守的数值。
相比标准思维链的显著提升：GSM8K 提升 17.9%，SVAMP 提升 11.0%，AQuA 提升 12.2%，StrategyQA 提升 6.4%，ARC-challenge 提升 3.9%——这些全是准确率的绝对提升，且使用的是相同的模型和提示词。
各模型的 GSM8K 结果：在 text-davinci-002 (GPT-3) 上，自一致性将准确率从 78.7% 提高到 86.5%。在 Codex 上，从 74.5% 提高到 82.3%。这种增益在不同模型家族中表现一致。
零训练成本：一切都发生在推理阶段。该方法适用于任何可以通过温度系数 > 0 进行采样的黑盒 API。
针对可提取答案的多数投票：当答案是离散的（如数字、字母选项）时，聚合步骤非常清晰。对于开放式生成，论文对于如何定义“最一致”描述较少——作者也承认了这一局限性。

哪些观点经得起推敲，哪些不能

其实证增益是真实的，已被多次复制，且该方法确实非常有用。但一些结构性的弱点值得审视。

首先，成本随样本数量线性增长。在推理时采样 40 条路径的 Token 预算是单条路径的 40 倍。对于延迟和 API 成本敏感的任务——比如每晚处理数百笔交易的智能体——这并非小事。后续研究（《早停自一致性》，ICLR 2024）解决了这个问题：通过在投票达到置信度阈值时立即停止采样，可以在不产生明显准确率损失的情况下，将 GSM8K 上的采样量减少 80%。原论文完全没有讨论成本，这是一个明显的疏忽。

其次，当模型出现系统性错误时，多数投票假设会失效。如果模型在所有 40 条路径中都一致地读错某个特定货币转换率或误用某项税务规则，那么错误答案将赢得投票。自一致性放大的是最常见的错误，而非正确答案。这是核心的认识论差距：该方法增加了模型信念分布内的“精确度”（precision），但在分布中心本身就是错误答案时，它对“校准度”（calibration）毫无帮助。

第三，Wang & Wang (2025, arXiv:2503.16974) 通过 50 次独立运行直接研究了大语言模型在金融和会计任务中的一致性。他们发现，二分类和情感分析通过单次采样就已经接近完美的可复现性，而复杂任务（预测、生成）则表现出明显的波动。他们的实践发现是：仅聚合 3–5 次运行就能显著提高复杂任务的一致性——这是自一致性思想的一个更廉价的版本。

为什么这对金融 AI 很重要

涉及多步算术运算的 Beancount 账本操作——税务计算、汇率调整后的成本基准、折旧表、发票对账——正是单次贪婪解码不可靠，但正确答案唯一且可验证的任务类型。自一致性是一种廉价的干预手段，应该成为任何输出可验证（资产负债表是否平衡？）的金融智能体任务的默认配置。

更深远的意义在于架构层面。自一致性将推理变成了投票集成。对于涉及回写安全性的操作——例如将日记账分录发布到账本的智能体——我会希望基于多数投票的置信度进行约束：只有当 40 条路径中有 35 条达成一致时才提交。意见分歧是一个信号，表明智能体应该将问题升级给人工处理，而不是直接写入。这是一个具体的、可实施的安全闸门，虽然消耗了推理预算，但并未增加工程复杂性。

系统性偏差导致的失效模式在税务和监管规则中尤为重要，因为已知模型会幻觉出特定司法管辖区的细节。在这种情况下，PAL (LOG-009) 是正确的解决方案：将计算完全卸载。自一致性和 PAL 是互补的——PAL 处理算术的正确性；自一致性处理歧义和推理的可靠性。

自一致性：多数投票采样提升思维链准确率

论文简介

关键思想

哪些观点经得起推敲，哪些不能

为什么这对金融 AI 很重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文简介​

关键思想​

哪些观点经得起推敲，哪些不能​

为什么这对金融 AI 很重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文简介

关键思想

哪些观点经得起推敲，哪些不能

为什么这对金融 AI 很重要

延伸阅读