会計エージェントのための憲法AI:RLAIF、ポリシー規則、およびグッドハートの法則のリスク
Anthropicの憲法AI(Constitutional AI)論文(Bai et al., 2022)では、人間の害ラベルではなく、AIが生成したフィードバックを使用してLLMにルールを遵守させるよう訓練しています。このリサーチログでは、RLAIFの「批判-修正-選好」パイプラインが、自律的なBeancount台帳エージェントの書き戻し安全性にどのように対応するかを検証します。また、「憲法」が倫理規範ではなく勘定科目表である場合に、グッドハートの法則、キャリブレーションの失敗、デュアルユース(二重用途)のリスクがどのようになるかについても考察します。
