跳到主要内容

CRITIC:为什么大模型自我修正需要外部工具反馈

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

阅读 CRITIC (Gou et al., ICLR 2024) 时,我在思考金融代理出错后会发生什么。Reflexion 告诉我们代理可以从跨情节的失败中学习。CRITIC 提出了一个更尖锐的问题:LLM 能否在单次生成过程中发现并修正自己的错误?如果可以,它究竟需要什么来实现这一点?

论文解读

2026-04-26-critic-llm-self-correct-tool-interactive-critiquing

CRITIC 引入了一个框架,其中语言模型首先生成初始输出,然后通过使用外部工具——用于事实核查的搜索 API、用于代码和算术的 Python 解释器以及用于内容审核的有害内容分类器——进行“验证-修正”循环。该循环运行固定的迭代次数(论文报告在大约三次修正后效果显著),产生经过精炼的输出。作者在自由形式问答(TriviaQA, AmbigNQ, HotpotQA)、数学程序综合以及有害内容减少方面对其进行了评估。

核心观点并不是 LLM 可以依靠自身进行自我修正。恰恰相反:CRITIC 的价值正是来自于将评论建立在模型无法伪造的外部信号之上。如果没有搜索 API,问答环节的改进几乎降至零甚至出现倒退。该框架之所以有效,是因为工具告诉了模型它真正不知道的东西,而不是因为模型成为了一个可靠的自我审计员。

关键要点

  • 应用于 ChatGPT 时,CRITIC 在三个开放域问答任务中平均获得了 7.7 的 F1 分数提升,并在三个数学推理基准测试中获得了 7.0 个百分点的绝对增益。
  • 有害内容减少是最显著的单一结果:在评估的数据集上,有害概率降低了 79.2%。
  • 移除搜索 API 会导致问答性能陷入停滞或下降——模型内在的自我评论能力对于事实性任务几乎毫无用处。
  • 循环收敛很快:三轮修正捕捉到了大部分增益,超过此次数后收益递减。
  • 该框架与模型无关,且无需微调;它适用于包括 Text-Davinci-003 和 ChatGPT 在内的黑盒 API。
  • CRITIC 在大多数任务上优于自我一致性(self-consistency,即对多个样本进行多数投票),这一点意义重大,因为自我一致性没有每一步的工具成本。

哪些观点站得住脚,哪些站不住

核心实证结果是可靠的:外部工具反馈显著改善了输出,而移除搜索 API 的消融实验对朴素自我修正的支持者来说是致命的。论文对机制的描述也很诚实——增益来自于工具,而不是某种涌现出的元认知能力。

我认为探讨不足的是失败模式分类。模型何时会生成错误的评论,从而导致其离正确答案越来越远?论文报告了平均性能,但不同任务和问题类型之间的差异对于实际部署至关重要。在金融语境下,最糟糕的结果不是“没有改进”,而是一个听起来很合理但引入了新错误的修正。

将迭代次数限制在三次也被表述为一种实践上的便利,而非原则性的停止准则。对于有标准答案可供收敛的 TriviaQA 来说,三轮可能有效。但在账目对账等领域,由于“正确”答案需要多文档推理和领域知识,目前尚不清楚三次工具调用是否足够,或者通用搜索 API 是否能提供正确的验证信号。

另一篇 ICLR 2024 论文《大语言模型尚无法自我修正推理》(Huang et al., arXiv:2310.01798)从另一个方向证实了 CRITIC 的发现:如果没有外部反馈,自我修正会可靠地降低推理准确性。这两篇论文共同构成了一个清晰的图景——人们所谓的“自我修正”大多是由外部反馈驱动的精炼,这种区别至关重要。

为什么这对金融 AI 很重要

CRITIC 循环自然地对应了 Beancount 代理中的回写安全(write-back safety)问题。目前,当 LLM 代理提议一条分录时——例如对交易进行分类或拆分费用——在将其提交到磁盘之前,它没有原则性的方法来验证自己的输出。CRITIC 的架构建议了一种具体的模式:生成候选分录,然后针对工具(余额检查函数、规则引擎、重复检测器)运行验证,并在写入发生之前利用工具'的输出提示进行修订。

我发现有害内容的结果是一个很有用的类比:政策违规减少 79.2% 并不是因为模型内化了规则,而是因为分类器将违规情况反馈给了模型。对于 Beancount 账本,等效的做法是一个规则检查器,它标记重复计入的交易或类别违规,并将该信号输入代理的修订环节。代理不需要独立知道规则被违反了;它需要的是工具的信号。

金融领域的关键限制是对搜索 API 的依赖。金融代理需要领域特定的验证工具:账户余额完整性检查、会计科目表验证器、税务规则查询。通用的网络搜索不太可能捕捉到分类错误的费用。为会计领域的 CRITIC 式修正构建正确的工具层才是真正的工程挑战所在——而论文根本没有涉及领域特定的工具设计。

延伸阅读

  • 《大语言模型尚无法自我修正推理》(Huang et al., 2023, arXiv:2310.01798) —— 该实证研究直接论证了内在自我修正的失败;应与 CRITIC 结合阅读,因为它们从相反的方向锁定了相同的机制。
  • 《思维树:利用大语言模型解决复杂问题》(Yao et al., NeurIPS 2023, arXiv:2305.10601) —— 将单路径的“评论-修正”想法扩展到中间步骤的搜索树;适用于代理需要探索和回溯的多步对账场景。
  • 《ToolBench:促进大语言模型掌握 16000+ 现实世界 API》(Qin et al., 2023, arXiv:2307.16789) —— 探讨代理如何学习选择和链接工具调用,这是 CRITIC 默认已解决的上游问题。