CRITIC：为什么大模型自我修正需要外部工具反馈

2026年4月26日 · 阅读需 6 分钟

Mike Thrift

Marketing Manager

阅读 CRITIC (Gou et al., ICLR 2024) 时，我在思考金融代理出错后会发生什么。Reflexion 告诉我们代理可以从跨情节的失败中学习。CRITIC 提出了一个更尖锐的问题：LLM 能否在单次生成过程中发现并修正自己的错误？如果可以，它究竟需要什么来实现这一点？

论文解读

2026-04-26-critic-llm-self-correct-tool-interactive-critiquing

CRITIC 引入了一个框架，其中语言模型首先生成初始输出，然后通过使用外部工具——用于事实核查的搜索 API、用于代码和算术的 Python 解释器以及用于内容审核的有害内容分类器——进行“验证-修正”循环。该循环运行固定的迭代次数（论文报告在大约三次修正后效果显著），产生经过精炼的输出。作者在自由形式问答（TriviaQA, AmbigNQ, HotpotQA）、数学程序综合以及有害内容减少方面对其进行了评估。

核心观点并不是 LLM 可以依靠自身进行自我修正。恰恰相反：CRITIC 的价值正是来自于将评论建立在模型无法伪造的外部信号之上。如果没有搜索 API，问答环节的改进几乎降至零甚至出现倒退。该框架之所以有效，是因为工具告诉了模型它真正不知道的东西，而不是因为模型成为了一个可靠的自我审计员。

关键要点

应用于 ChatGPT 时，CRITIC 在三个开放域问答任务中平均获得了 7.7 的 F1 分数提升，并在三个数学推理基准测试中获得了 7.0 个百分点的绝对增益。
有害内容减少是最显著的单一结果：在评估的数据集上，有害概率降低了 79.2%。
移除搜索 API 会导致问答性能陷入停滞或下降——模型内在的自我评论能力对于事实性任务几乎毫无用处。
循环收敛很快：三轮修正捕捉到了大部分增益，超过此次数后收益递减。
该框架与模型无关，且无需微调；它适用于包括 Text-Davinci-003 和 ChatGPT 在内的黑盒 API。
CRITIC 在大多数任务上优于自我一致性（self-consistency，即对多个样本进行多数投票），这一点意义重大，因为自我一致性没有每一步的工具成本。

哪些观点站得住脚，哪些站不住

核心实证结果是可靠的：外部工具反馈显著改善了输出，而移除搜索 API 的消融实验对朴素自我修正的支持者来说是致命的。论文对机制的描述也很诚实——增益来自于工具，而不是某种涌现出的元认知能力。

我认为探讨不足的是失败模式分类。模型何时会生成错误的评论，从而导致其离正确答案越来越远？论文报告了平均性能，但不同任务和问题类型之间的差异对于实际部署至关重要。在金融语境下，最糟糕的结果不是“没有改进”，而是一个听起来很合理但引入了新错误的修正。

将迭代次数限制在三次也被表述为一种实践上的便利，而非原则性的停止准则。对于有标准答案可供收敛的 TriviaQA 来说，三轮可能有效。但在账目对账等领域，由于“正确”答案需要多文档推理和领域知识，目前尚不清楚三次工具调用是否足够，或者通用搜索 API 是否能提供正确的验证信号。

另一篇 ICLR 2024 论文《大语言模型尚无法自我修正推理》（Huang et al., arXiv:2310.01798）从另一个方向证实了 CRITIC 的发现：如果没有外部反馈，自我修正会可靠地降低推理准确性。这两篇论文共同构成了一个清晰的图景——人们所谓的“自我修正”大多是由外部反馈驱动的精炼，这种区别至关重要。

为什么这对金融 AI 很重要

CRITIC 循环自然地对应了 Beancount 代理中的回写安全（write-back safety）问题。目前，当 LLM 代理提议一条分录时——例如对交易进行分类或拆分费用——在将其提交到磁盘之前，它没有原则性的方法来验证自己的输出。CRITIC 的架构建议了一种具体的模式：生成候选分录，然后针对工具（余额检查函数、规则引擎、重复检测器）运行验证，并在写入发生之前利用工具'的输出提示进行修订。

我发现有害内容的结果是一个很有用的类比：政策违规减少 79.2% 并不是因为模型内化了规则，而是因为分类器将违规情况反馈给了模型。对于 Beancount 账本，等效的做法是一个规则检查器，它标记重复计入的交易或类别违规，并将该信号输入代理的修订环节。代理不需要独立知道规则被违反了；它需要的是工具的信号。

金融领域的关键限制是对搜索 API 的依赖。金融代理需要领域特定的验证工具：账户余额完整性检查、会计科目表验证器、税务规则查询。通用的网络搜索不太可能捕捉到分类错误的费用。为会计领域的 CRITIC 式修正构建正确的工具层才是真正的工程挑战所在——而论文根本没有涉及领域特定的工具设计。

CRITIC：为什么大模型自我修正需要外部工具反馈

论文解读

关键要点

哪些观点站得住脚，哪些站不住

为什么这对金融 AI 很重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文解读​

关键要点​

哪些观点站得住脚，哪些站不住​

为什么这对金融 AI 很重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文解读

关键要点

哪些观点站得住脚，哪些站不住

为什么这对金融 AI 很重要

延伸阅读