自一致性:多数投票采样提升思维链准确率
· 阅读需 6 分钟
LOG-009 介绍了 PAL,它将算术运算卸载到 Python 解释器,从而使模型无需自行计算。自一致性(Self-consistency)解决的是另一个正交问题:如果模型在大多数时间里推理正确,但并非总是如此,该怎么办?事实证明,答案是统计学上的,而非架构上的——而且效果显著得令人惊讶。
论文简介
由 Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery 和 Denny Zhou 发表的《自一致性提升语言模型中的思维链推理》(Self-Consistency Improves Chain of Thought Reasoning in Language Models,ICLR 2023,arXiv:2203.11171)引入了一种解码策略,该策略将单一的贪婪思维链路径替换为对多条采样路径的多数投票。其核心直觉非常简练:一个复杂的推理问题通常只有一个正确答案,但通往该答案的有效路径有很多;而错误答案更有可能是由特异性错误导致的,这些错误不太 可能都指向同一个错误结果。
该方法是即插即用的。你可以直接沿用现有的思维链(CoT)提示词,在非零温度系数(temperature)下采样 N 个生成结果,从每个结果中提取最终答案,并返回出现频率最高的答案。无需微调,无需额外模型,也无需额外的人工标注。
关键思想
- 样本量与温度系数:论文在温度系数 0.7 下,针对每个问题使用了 40 条推理路径。这并非经过超参数调优的神奇数字——消融实验显示,增益在大约 20–30 个样本后趋于平稳,因此 40 是一个保守的数值。
- 相比标准思维链的显著提升:GSM8K 提升 17.9%,SVAMP 提升 11.0%,AQuA 提升 12.2%,StrategyQA 提升 6.4%,ARC-challenge 提升 3.9%——这些全是准确率的绝对提升,且使用的是相同的模型和提示词。
- 各模型的 GSM8K 结果:在 text-davinci-002 (GPT-3) 上,自一致性将准确率从 78.7% 提高到 86.5%。在 Codex 上,从 74.5% 提高到 82.3%。这种增益在不同模型家族中表现一致。
- 零训练成本:一切都发生在推理阶段。该方法适用于任何可以通过温度系数 > 0 进行采样的黑盒 API。
- 针对可提取答案的多数投票:当答案是离散的(如数字、字母选项)时,聚合步骤非常清晰。对于开放式生成,论文对于如何定义“最一致”描述较少——作者也承认了这一局限性。