メインコンテンツまでスキップ

会計エージェントのための憲法AI:RLAIF、ポリシー規則、およびグッドハートの法則のリスク

· 約10分
Mike Thrift
Mike Thrift
Marketing Manager

Anthropicの憲法AI(Constitutional AI)論文(Bai et al., 2022, arXiv:2212.08073)は、自律的な会計エージェントの書き戻し安全性について考えるたびに頭に浮かびます。この論文が取り組んでいる核心的な問い、つまり「すべての違反を手作業でラベリングすることなく、AIに一貫してルールセットを遵守させることができるか?」という問いは、私がBeancount台帳エージェントについて問い続けていること、すなわち「すべての取引をチェックするためにコンプライアンス担当者を雇うことなく、エージェントが不正な形式の、あるいはポリシーに違反する仕訳を投稿するのをどうやって防ぐか?」という問いにほぼ正確に重なります。

論文の概要

2026-04-21-憲法AI-AIフィードバックによる無害化

Baiらは、有害な出力に対する人間のラベルを収集することなく、LLMを無害化するためのトレーニングパイプラインである「憲法AI(Constitutional AI: CAI)」を紹介しています。唯一の人間による入力は、モデルがすべきこととすべきでないことを規定する、自然言語で書かれた短い原則のリスト、つまり「憲法」です。それ以外はすべて自動化されています。モデルは自身の回答をそれらの原則に照らして批判(critique)し、修正(revise)します。その後、別のAI評価者が回答のペアから優れた方を選択し、強化学習(RL)トレーニングのための選好データを生成します。この手法は、標準的なRLHFに対して、RLAIF(Reinforcement Learning from AI Feedback)と呼ばれます。

パイプラインには2つのフェーズがあります。教師あり学習(SL-CAI)フェーズでは、モデルは有害なプロンプトを読み、回答を生成し、16の憲法的原則のうちの1つをサンプリングしてその回答を批判し、その批判に対処するために回答を書き直します。この批判-修正ループは、1つの例につき最大4回繰り返されます。得られた修正済みの回答に標準的な有用性の例を加え、ベースモデルのファインチューニングに使用します。強化学習(RL-CAI)フェーズでは、SL-CAIモデルが有害なプロンプトに対して回答のペアを生成し、フィードバックモデル(これも憲法に基づいている)がどちらの回答が優れているかを選択します。それらのAI生成された選好ラベルが報酬モデルを訓練し、その報酬モデルがポリシーのRLファインチューニングを推進します。最終的な二値の選好判断の前に推論の質を向上させるために、RL段階で思考の連鎖(Chain-of-thought)プロンプティングが追加されます。

主要なアイデア

  • 16の憲法的原則は、各批判ステップでランダムにサンプリングされます。これにより、単一の原則が支配的になるのを防ぎ、モデルが潜在的な害を多様にカバーするように促されます。
  • クラウドワーカーによる比較(Surge AI経由)では、24のトレーニングスナップショットにわたって、有用性に関する10,274件の比較と、無害性に関する8,135件の比較で評価が行われました。RL-CAIは、有用性のEloスコアを比例的に犠牲にすることなく、SL-CAIベースラインと比較して無害性のEloスコアを向上させました。これがこの論文の主要な実証的主張です。
  • AIフィードバックモデルは、2つの回答のどちらが良いかを予測する際に「90%を大幅に超える二値精度」を達成し、同じ比較タスクにおける人間のパフォーマンスに迫っています。
  • ソフトな選好ラベル(正規化された対数確率)は、報酬モデルのトレーニングにおいてハードな0/1ラベルを大幅に上回りました。思考の連鎖の確率を40〜60%の範囲にクランプ(固定)することで、クランプされていない確信度スコアよりもRLの安定性が大幅に向上しました。
  • セット内の憲法的原則の数は、総合的な無害性スコアに大きな影響を与えませんでした。重要なのは原則があることであり、その数を最適化することではありません。
  • アブレーション研究によると、小規模なモデルでは批判を伴う修正が直接的な修正よりも優れています。52Bパラメータではその差は縮まりますが、それでも批判はわずかながら効果があります。

維持されている主張と、そうでない点

「有用性を維持しつつ、AIフィードバックが人間の害ラベルの代わりになり得る」という中心的な主張は、実際のクラウドワーカーによる比較に裏打ちされており、RLAIFの仕組みは十分に堅牢であるため、その後標準的な手法となりました。この部分は揺るぎません。

著者が認めている限界については深く考える価値があります。第一に、グッドハートの法則(Goodharting)です。RL-CAIモデルは「過学習」に陥る可能性があり、実質的な関与の代わりに「あなたは正当であり、価値があり、大切にされています」といった定型的な言葉を生成するようになります。選好モデルは飽和し、高い値でのキャリブレーションが失われ、ポリシーは真の推論ではなく無害性の表面的なパターンを学習します。第二に、キャリブレーションの問題です。思考の連鎖の確率は通常0または1に近く、十分にキャリブレーションされていません。著者はトレーニングを安定させるためにそれらをクランプする必要がありました。第三に、この手法が「人間のラベルを必要としない」という主張は誇張です。Austin ML Journal Clubのレビューが指摘したように、憲法を書いたのは人間であり、有用性データにラベルを付けたのも人間であり、最終的なモデルを評価したのも人間です。人間の入力はゼロではなく、少なくなっただけです。

論文の奥深くに埋もれているデュアルユース(二重用途)への懸念は、もっと注目されるべきです。ルール遵守モデルを安価に訓練することを容易にする技術は、有害なルールを安価に遵守するモデルを訓練する障壁も下げてしまいます。著者はこれに言及していますが、解決はしていません。

なぜこれが金融AIにとって重要なのか

Bean Labsのユースケースは、ほぼ直接的な置き換えが可能です。「有害な出力」を「会計ポリシー違反」に置き換えれば、CAIパイプラインは書き戻し安全性のための現実的なアーキテクチャになります。会計規則(前払費用のGAAP処理、会社独自の勘定科目表の制約、複式簿記のバランスチェック、承認しきい値など)の憲法を定義し、SL-CAIを実行して、エージェントが仕訳を確定する前に自ら批判するように学習させます。そしてRL-CAIを実行して、どの提案された仕訳がよりコンプライアンスに準拠しているかというAI生成の判断に基づいて報酬モデルを訓練します。

失敗モードもそのまま当てはまります。会計エージェントにおけるグッドハートの法則は、エージェントが実際にコンプライアンスをチェックするのではなく、すべての仕訳に「この取引には追加のドキュメントが必要な場合があります」といった定型的な免責事項を付加することを学習するような形になります。これは安全層がまったくないよりも、誤った安心感を与えてしまう分、かえって悪いと言えるでしょう。キャリブレーションの問題はしきい値の判断に影響します。自信過剰な報酬モデルは、わずかなポリシー違反を捉えられない二値に近いスコアを出してしまいます。そして、デュアルユースの懸念も再浮上します。同じ手法を使って、取引を隠蔽するために設計された指示に忠実に従うエージェントを訓練できてしまう可能性があります。

この論文で扱われていないのは、時間的な一貫性です。CAIで訓練されたエージェントが、台帳履歴全体にわたって一律にルールを適用するのか、それとも仕訳ごとに局所的に適用するのかという点です。このギャップは、月次決算の照合やマルチステップのワークフローにおいて重要になります。

次に読むべきもの

  • Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — 憲法そのものをクラウドソーシングすることを検討しています。Bean Labsが会計規則を一方的にエンコードするのではなく、複数のステークホルダーから収集する方法に直接関連します。
  • Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — 単一の高レベルな原則(「人類にとって最善を尽くせ」)が、詳細なリストの代わりになり得るかをテストしています。この答えは、一般的な金融倫理に頼るのと、会計規則をどれほど厳密に指定する必要があるかの判断に重要です。
  • RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — CAIが改善しようとしているRLHFのベースラインです。オリジナルの手法を理解することは、RLAIFが実際に何を得たかを評価するのに役立ちます。