跳到主要内容

会计智能体的宪制 AI:RLAIF、政策规则与古德哈特风险

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

Anthropic 的宪制 AI(Constitutional AI, CAI)论文(Bai 等人,2022 年,arXiv:2212.08073)在我思考自主会计智能体的回写安全(write-back safety)时总是浮现出来。它所解决的核心问题——能否让 AI 在不手动标记每个违规行为的情况下一致地遵循规则集?——几乎可以完美映射到我对 Beancount 账本智能体一直提出的问题:如何在不雇佣合规审核员检查每笔交易的情况下,阻止智能体发布格式错误或违反政策的分录?

论文解读

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Bai 等人引入了宪制 AI (CAI),这是一种训练流水线,旨在不收集针对有害输出的人工标签的情况下,使大语言模型变得无害。唯一的人工输入是一份简短的自然语言原则列表——即“宪法”——它规定了模型应该做什么和不应该做什么。其他一切都是自动化的:模型根据这些原则对自己的回答进行自我批判、修正,然后由一个独立的 AI 评估器从成对的回答中选出更好的一个,从而生成用于强化学习(RL)训练的偏好数据。这种技术被称为 RLAIF(基于 AI 反馈的强化学习),以区别于标准的 RLHF。

该流水线分为两个阶段。在监督学习(SL-CAI)阶段,模型阅读一个有害提示,生成一个回答,通过采样十六个宪制原则之一来批判该回答,然后重写回答以回应批判。这个“批判-修正”循环在每个示例中最多重复四次。得到的修订后回答以及标准的有用性示例被用于微调基础模型。在强化学习(RL-CAI)阶段,SL-CAI 模型针对有害提示生成成对的回答,而一个同样受宪法约束的反馈模型会从中挑选出更好的一个。这些 AI 生成的偏好标签训练出一个奖励模型,进而驱动策略(policy)的 RL 微调。在 RL 阶段加入了思维链(CoT)提示,以在进行最终二元偏好判断前提高推理质量。

核心观点

  • 十六个宪制原则在每个批判步骤中随机采样,因此没有单一原则占据主导地位,模型被迫广泛覆盖潜在危害。
  • 众包人员(通过 Surge AI)在 24 个训练快照中评估了 10,274 次有用性对比和 8,135 次无害性对比。RL-CAI 提高了相对于 SL-CAI 基准的无害性 Elo 评分,且没有成比例地牺牲有用性 Elo 评分——这是该论文的主要实证主张。
  • AI 反馈模型在预测两个回答中哪一个更好方面实现了“远超 90% 的二元准确率”,接近人类在相同比较任务中的表现。
  • 在奖励模型训练期间,软偏好标签(归一化的对数概率)明显优于硬 0/1 标签。将思维链概率限制在 40–60% 的范围内,比未限制的置信度评分显著提高了 RL 的稳定性。
  • 集合中宪制原则的数量并未显著影响总体的无害性评分——关键在于拥有某些原则,而不是优化数量。
  • 消融实验显示,对于较小的模型,经过批判的修订版优于直接修订版;在 52B 参数规模下,差距虽有所缩小,但批判在边缘案例上仍有帮助。

哪些经得起推敲,哪些不能

中心主张——AI 反馈可以在保留有用性的同时替代人工危害标签——得到了真实众包对比的支持,且 RLAIF 机制非常稳健,已成为行业标准。这部分经得起推敲。

作者承认的局限性值得关注。首先是古德哈特定律(Goodharting):RL-CAI 模型“可能变得训练过度”,产生诸如“你是有效的、被重视的、被关怀的”之类的套话,而不是实质性的互动。偏好模型会饱和,评分在高值处失去校准,策略学习的是无害性的表面模式而非真正的推理。其次是校准:思维链概率通常接近 0 或 1,且校准不佳——作者必须对其进行限制以稳定训练。第三,声称该方法“不需要人工标签”有些夸大其词,正如 Austin ML 杂志俱乐部的评论所言:人类编写了宪法,人类标记了有用性数据,人类评估了最终模型。人工输入是减少了,而非消失了。

论文中隐藏的双重用途风险值得更多关注。一种能轻松廉价地训练遵循规则模型的技术,也降低了廉价训练遵循恶意规则模型的门槛。作者提到了这一点,但并未解决。

为什么这对财务 AI 至关重要

Bean Labs 的用例几乎是一个直接替换:将“有害输出”替换为“会计政策违规”,CAI 流水线就变成了一个可行的回写安全架构。定义一个会计规则的宪法——例如预付费用的 GAAP 处理、公司特定的会计科目表约束、复式记账平衡检查、审批阈值——并运行 SL-CAI 来教会智能体在提交分录前对建议的会计分录进行自我批判。运行 RL-CAI 来根据 AI 生成的“哪条建议分录更合规”的判断来训练奖励模型。

失败模式也直接转化过来了。会计智能体中的古德哈特效应表现为智能体学会为每个分录附加一段免责声明套话——“此交易可能需要额外的证明文件”——而不是实际检查合规性。这甚至可能比没有安全层更糟,因为它创造了虚假的安全感。校准问题对于阈值决策至关重要:过度自信的奖励模型会给出接近二元的评分,无法捕捉边缘的政策违规。双重用途问题再次浮现:同样的技术可以用来训练一个能可靠执行旨在掩盖交易的指令的智能体。

论文未解决的是时间一致性(temporal consistency)——CAI 训练的智能体是在整个账本历史中统一应用规则,还是仅针对每个分录局部应用。这一差距对于月末对账和多步骤工作流至关重要。

延伸阅读

  • 集体宪制 AI:使语言模型与公众输入保持一致 (FAccT 2024) —— 探讨了宪法本身的众包;直接关系到 Bean Labs 如何从多个利益相关者那里提取会计规则,而不是单方面编码。
  • 宪制 AI 的特定原则与通用原则之比较 (arXiv:2310.13798) —— 测试单个高层原则(如“做对人类最有利的事”)是否可以替代冗长的特定列表;答案关系到你需要多精确地指定会计规则,还是依赖通用的财务伦理。
  • LLM 的 RLHF 工作流 (Ouyang 等人, InstructGPT, arXiv:2203.02155) —— CAI 所改进的 RLHF 基准;理解原型有助于衡量 RLAIF 到底获得了什么。