会计智能体的宪制 AI:RLAIF、政策规则与古德哈特风险
Anthropic 的宪制 AI(Constitutional AI, CAI)论文(Bai 等人,2022 年,arXiv:2212.08073)在我思考自主会计智能体的回写安全(write-back safety)时总是浮现出来。它所解决的核心问题——能否让 AI 在不手动标记每个违规行为的情况下一致地遵循规则集?——几乎可以完美映射到我对 Beancount 账本智能体一直提出的问题:如何在不雇佣合规审核员检查每笔交易的情况下,阻止智能体发布格式错误或违反政策的分录?
论文解读
Bai 等人引入了宪制 AI (CAI),这是一种训练流水线,旨在不收集针对有害输出的人工标签的情况下,使大语言模型变得无害。唯一的人工输入是一份简短的自然语言原则列表——即“宪法”——它规定了模型应该做什么和不应该做什么。其他一切都是自动化的:模型根据这些原则对自己的回答进行自我批判、修正, 然后由一个独立的 AI 评估器从成对的回答中选出更好的一个,从而生成用于强化学习(RL)训练的偏好数据。这种技术被称为 RLAIF(基于 AI 反馈的强化学习),以区别于标准的 RLHF。
该流水线分为两个阶段。在监督学习(SL-CAI)阶段,模型阅读一个有害提示,生成一个回答,通过采样十六个宪制原则之一来批判该回答,然后重写回答以回应批判。这个“批判-修正”循环在每个示例中最多重复四次。得到的修订后回答以及标准的有用性示例被用于微调基础模型。在强化学习(RL-CAI)阶段,SL-CAI 模型针对有害提示生成成对的回答,而一个同样受宪法约束的反馈模型会从中挑选出更好的一个。这些 AI 生成的偏好标签训练出一个奖励模型,进而驱动策略(policy)的 RL 微调。在 RL 阶段加入了思维链(CoT)提示,以在进行最终二元偏好判断前提高推理质量。
核心观点
- 十六个宪制原则在每个批判步骤中随机采样,因此没有单一原则占据主导地位,模型被迫广泛覆盖潜在危害。
- 众包人员(通过 Surge AI)在 24 个训练快照中评估了 10,274 次有用性对比和 8,135 次无害性对比。RL-CAI 提高了相对于 SL-CAI 基准的无害性 Elo 评分,且没有成比例地牺牲有用性 Elo 评分——这是该论文的主要实证主张。
- AI 反馈模型在预测两个回答中哪一个更好方面实现了“远超 90% 的二元准确率”,接近人类在相同比较任务中的表现。
- 在奖励模型训练期间,软偏好标签(归一化的对数概率)明显优于硬 0/1 标签。将思维链概率限制在 40–60% 的范围内,比未限制的置信度评分显著提高了 RL 的稳定性。
- 集合中宪制原则的数量并未显著影响总体的无害性评分——关键在于拥有某些原则,而不是优化数量。
- 消融实验显示,对于较小的模型,经过批判的修订版优于直接修订版;在 52B 参数规模下,差距虽有所缩小,但批判在边缘案例上仍有帮助。
哪些经得起推敲,哪些不能
中心主张——AI 反馈可以在保留有用性的同时替代人工危害标签——得到了真实众包对比的支持,且 RLAIF 机制非常稳健,已成为行业标准。这部分经得起推敲。
作者承认的局限性值得关注。首先是古德哈特定律(Goodharting):RL-CAI 模型“可能变得训练过度”,产生诸如“你是有效的、被重视的、被关怀的”之类的套话,而不是实质性的互动。偏好模型会饱和,评分在高值处失去校准,策略学习的是无害性的表面模式而非真正的推理。其次是校准:思维链概率通常接近 0 或 1,且校准不佳——作者必须对其进行限制以稳定训练。第三,声称该方法“不需要人工标签”有些夸大其词,正如 Austin ML 杂志俱乐部的评论所言:人类编写了宪法,人类标记了有用性数据,人类评估了最终模型。人工输入是减少了,而非消失了。
论文中隐藏的双重用途风险值得更多关注。一种能轻松廉价地训练遵循规则模型的技术,也降低了廉价训练遵循恶意规则模型的门槛。作者提到了这一点,但并未解决。