跳到主要内容

思维链提示:金融人工智能中的精确率与召回率权衡

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

我正在带着一个特定的问题重读 Wei 等人 2022 年关于思维链(Chain-of-Thought, CoT)的论文 (arXiv:2201.11903):早期的实验表明,在金融异常检测中,CoT 提示提高了精确率(precision),但损害了召回率(recall)。这篇论文应该能解释原因——或者至少给我足够的机制直觉来形成假设。

论文简介

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

Google Brain 的 Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma 及其同事发表的《思维链提示在大语言模型中诱导推理》(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)是让 CoT 声名鹊起的论文。其核心理念很简单:不是要求模型直接给出答案,而是向其展示几个示例,其中答案之前有一段写出来的推理轨迹。随后,模型在回答之前也会生成自己的推理轨迹。

论文在三个大语言模型(PaLM 540B、GPT-3 175B 和 LaMDA 137B)上针对算术(GSM8K、SVAMP、AQuA)、常识(CommonsenseQA、StrategyQA)和符号推理(字母拼接、抛硬币)任务进行了测试,并与标准的少样本提示(few-shot prompting)进行了对比。

核心观点

  • GSM8K(数学应用题):使用 PaLM 540B 的标准提示得分为 17.9%;CoT 得分为 56.9%,提升了 39 个百分点。这在困难的基准测试中是一个惊人的进步,也是该论文广为人知的头条结果。
  • 字母拼接:标准提示 7.6%,CoT 99.4%。对于纯粹的符号操作,CoT 在大规模模型上基本解决了这一任务。
  • CommonsenseQA:标准提示 78.1%,CoT 79.9%。收益微乎其微。不需要多步推理的任务获益不大。
  • 规模悬崖(Scale cliff):CoT 仅在大约 100B+ 参数规模时能产生可靠的帮助。在低于 ~10B 时,添加推理轨迹通常反而会造成损害——模型会产生“流畅但逻辑混乱的思维链”,从而产生误导。
  • 简单任务没有收益:在 MAWPS SingleOp(单步算术)上,PaLM 540B 在标准提示和 CoT 提示下的得分均为 94.1%。当任务实际上不需要多步推理时,推理开销不会增加任何价值。
  • 不保证正确性:作者明确指出,大语言模型可能会产生一个看起来连贯但导致错误答案的推理轨迹。推理轨迹和答案是共同生成的,两者都没有经过独立验证。

哪些观点站得住脚,哪些则不然

实验结果是经得起考验的。GSM8K 上的收益在后续工作中得到了复制,规模阈值与其他地方观察到的情况一致,符号推理的数据也与情境学习(in-context learning)机制的预期相符。这篇论文做了真正的科学研究。

我认为研究不足的是精确率/召回率的不对称性。Wei 等人展示的是总准确率数据——他们没有细分假阳性(false positive)与假阴性(false negative)率。但如果你思考 CoT 如何改变答案分布,其机制是具有启发性的:CoT 促使模型生成并致力于一条推理路径。这种生成空间的缩小可能会以牺牲覆盖率(召回率)为代价来提高特异性(精确率)。模型生成的答案总数较少,而生成的答案往往更有据可查——但它可能会忽略那些不符合整洁的分步叙述的正确答案。对于金融数据中的异常检测,由于“异常”类别根据定义是稀有且非典型的,这正是你预期的失效模式。

论文还留下了机制问题。作者谨慎地没有声称模型在任何强意义上“实际上在推理”。CoT 是诱导了真正的多步推理,还是模仿这种推理的复杂模式匹配捷径,目前尚无定论。沃顿商学院 2025 年的一份测试现代推理模型(o3-mini, o4-mini)的报告发现,明确的 CoT 指令仅产生 2-3% 的边际收益,有时甚至会因为在模型本来能答对的问题上触发错误而降低“完美准确率”。随着模型隐式推理能力的提高,论文中的规模阈值可能已经发生了变化——但波动性问题依然存在,即 CoT 引入了非零概率使原本正确的答案偏离轨道。

为什么这对金融人工智能很重要

这与 Bean Labs 的议程有三个关联:

第一,回写安全问题。在执行账本操作之前解释其推理的 CoT 提示智能体提供了审计线索——但推理轨迹并不是正确性的保证。智能体可以为一个错误的动作产生一个看起来合理的解释。这意味着向用户展示推理轨迹可能会产生虚假的信任感,而不是真正的可审计性。

第二,异常检测的不对称性。如果在稀有事件检测任务中 CoT 提高了精确率但降低了召回率,那么对于 Beancount 的用例——发现分类错误的交易、标记重复条目、捕捉违反政策的行为——盲目使用 CoT 可能会以错过真实问题为代价,减少虚假警报。这可能是一个错误的权衡。一个自信地解释为什么它没有标记可疑情况的金融智能体,比一个过度标记的智能体更危险。

第三,规模依赖性。如果生产环境中的金融智能体出于成本或延迟原因在较小的模型上运行,CoT 的收益就会消失——甚至反转。任何对基于 CoT 的金融智能体的评估,都需要在生产环境中使用的相同模型规模下进行。

延伸阅读

  • 《自一致性提高大语言模型中的思维链推理》 (Wang et al., 2022, arXiv:2203.11171) —— 采样多个 CoT 路径并采取多数投票;直接解决了 Wei 等人指出的方差问题。
  • 《大语言模型是零样本推理者》 (Kojima et al., 2022, arXiv:2205.11916) —— 展示了在没有任何示例的情况下,“让我们一步步思考”也能诱导出推理;测试了 CoT 实际需要的边界。
  • 《大语言模型的思维链推理是“推理”还是“搜索”过程?》 (arXiv:2508.01191) —— 直接抨击了原论文留下的机制问题。