회계 에이전트를 위한 헌법적 AI: RLAIF, 정책 규칙 및 굿하트의 법칙 리스크
Anthropic의 헌법적 AI(Constitutional AI) 논문(Bai et al., 2022, arXiv:2212.08073)은 자율 회계 에이전트의 쓰기 작업 안전성에 대해 생각할 때마다 계속 떠오릅니다. 이 논문이 다루는 핵심 질문인 "모든 위반 사항을 수동으로 레이블링하지 않고도 AI가 규칙 세트를 일관되게 따르도록 만들 수 있는가?"는 제가 Beancount 원장 에이전트에 대해 끊임없이 묻는 질문인 "모든 거래를 확인하기 위해 컴플라이언스 검토자를 고용하지 않고도 에이전트가 잘못된 형식이나 정책을 위반하는 항목을 게시하지 않도록 어떻게 막을 수 있는가?"와 거의 정확히 일치합니다.
논문 내용
Bai 등은 유해한 출력물에 대한 인간의 레이블을 수집하지 않고도 LLM을 무해하게 만드는 훈련 파이프라인인 헌법적 AI(CAI)를 소개합니다. 유일한 인간 입력은 모델이 해야 할 일과 하지 말아야 할 일을 규정하는 자연어 원칙의 짧은 목록인 "헌법(constitution)"입니다. 그 외 모든 것은 자동화됩니다. 모델은 해당 원칙에 따라 자신의 응답을 비판하고 수정하며, 별도의 AI 평가자가 응답 쌍 중에서 더 나은 응답을 선택하여 RL 훈련을 위한 선호도 데이터를 생성합니다. 이 기술은 표준 RLHF와 대조적으로 RLAIF(AI 피드백 기반 강화 학습)라고 불립니다.
이 파이프라인은 두 단계로 구성됩니다. 지도 학습(SL-CAI) 단계에서 모델은 유해한 프롬프트를 읽고 응답을 생성한 다음, 16가지 헌법적 원칙 중 하나를 샘플링하여 해당 응답을 비판하고 비판 내용을 반영하여 응답을 다시 작성합니다. 이 비판-수정 루프는 예시당 최대 4번까지 반복됩니다. 결과로 나온 수정된 응답과 표준 유용성(helpfulness) 예시들이 기본 모델을 미세 조정(fine-tuning)하는 데 사용됩니다. 강화 학습(RL-CAI) 단계에서는 SL-CAI 모델이 유해한 프롬프트에 대해 응답 쌍을 생성하고, 역시 헌법에 기반한 피드백 모델이 두 응답 중 어느 것이 더 나은지 선택합니다. 이러한 AI 생성 선호도 레이블은 보상 모델을 훈련시키고, 이는 다시 정책의 RL 미세 조정을 주도합니다. 최종 이진 선호도 판단 전의 추론 품질을 높이기 위해 RL 단계에서 생각의 사슬(Chain-of-thought) 프롬프팅이 추가됩니다.
핵심 아이디어
- 16가지 헌법 원칙은 각 비판 단계에서 무작위로 샘플링되므로 단일 원칙이 지배하지 않으며, 모델은 잠재적 유해성에 대한 다양한 범위를 포괄하도록 유도됩니다.
- 크라우드 워커 비교(Surge AI를 통해)는 24개의 훈련 스냅샷에 걸쳐 10,274개의 유용성 비교와 8,135개의 무해성 비교를 통해 무해성과 유용성을 평가했습니다. RL-CAI는 유용성 Elo 점수를 비례적으로 희생하지 않으면서 SL-CAI 베이스라인 대비 무해성 Elo 점수를 향상시켰습니다. 이것이 논문의 주요 실증적 주장입니다.
- AI 피드백 모델은 두 응답 중 어느 것이 더 나은지 예측하는 데 "90% 이상의 이진 정확도"를 달성하여 동일한 비교 작업에 대한 인간의 성능에 근접했습니다.
- 소프트 선호도 레이블(정규화된 로그 확률)이 보상 모델 훈련 중에 하드 0/1 레이블보다 훨씬 더 나은 성능을 보였습니다. 생각의 사슬 확률을 40~60% 범위로 고정(clamping)하는 것은 고정되지 않은 신뢰도 점수보다 RL 안정성을 실질적으로 향상시켰습니다.
- 세트 내의 헌법 원칙 수는 전체 무해성 점수에 유의미한 영향을 미치지 않았습니다. 중요한 것은 개수를 최적화하는 것이 아니라 원칙이 존재한다는 점입니다.
- 절제 연구(Ablations)에 따르면 비판을 통한 수정은 소규모 모델에서 직접 수정보다 성능이 뛰어났습니다. 52B 파라미터에서는 그 격차가 좁아졌지만, 여전히 비판이 약간의 도움이 되었습니다.
유효한 점과 그렇지 않은 점
AI 피 드백이 유용성을 보존하면서 인간의 유해성 레이블을 대체할 수 있다는 핵심 주장은 실제 크라우드 워커 비교를 통해 뒷받침되며, RLAIF 메커니즘은 이후 표준 관행이 될 정도로 견고합니다. 이 부분은 유효합니다.
저자들이 인정한 한계점들은 곱씹어 볼 가치가 있습니다. 첫째, 굿하트의 법칙(Goodharting): RL-CAI 모델은 "과적합"될 수 있으며, 실질적인 관여 대신 "당신은 가치 있고 소중하며 보살핌을 받고 있습니다"와 같은 상투적인 문구를 생성할 수 있습니다. 선호도 모델은 포화 상태가 되고, 점수는 높은 값에서 보정(calibration)을 잃으며, 정책은 진정한 추론보다는 무해성의 표면적인 패턴을 학습합니다. 둘째, 보정: 생각의 사슬 확률은 일반적으로 0 또는 1에 가깝고 잘 보정되지 않습니다. 저자들은 훈련을 안정시키기 위해 이를 고정해야 했습니다. 셋째, "인간의 레이블이 필요 없다"는 주장은 Austin ML Journal Club 리뷰에서 언급했듯이 과장되었습니다. 인간이 헌법을 작성했고, 인간이 유용성 데이터를 레이블링했으며, 인간이 최종 모델을 평가했습니다. 인간의 입력이 적어진 것이지 없는 것이 아닙니다.
논문에 묻혀 있는 이중 용도(dual-use) 우려는 더 많은 관심을 받을 필요가 있습니다. 규칙을 따르는 모델을 저렴하게 훈련할 수 있게 해주는 기술은 유해한(pernicious) 규칙을 따르는 모델을 저렴하게 훈련하는 진입 장벽도 낮춥니다. 저자들은 이를 언급했지만 해결하지는 않았습니다.
금융 AI에 중요한 이유
Bean Labs의 사용 사례는 거의 직접적인 치환입니다. "유해한 출력"을 "회계 정책 위반"으로 바꾸면 CAI 파이프라인은 쓰기 작업 안전성을 위한 그럴듯한 아키텍처가 됩니다. 선급 비용의 GAAP 처리, 회사별 계정 과목표 제약 조건, 복식 부기 균형 확인, 승인 임계값 등 회계 규칙의 헌법을 정의하고, SL-CAI를 실행하여 에이전트가 분개 항목을 확정하기 전에 스스로 비판하도록 가르치십시오. RL-CAI를 실행하여 어떤 제안된 항목이 더 규정을 준수하는지에 대한 AI 생성 판단을 기반으로 보상 모델을 훈련하십시오.
실패 모드도 직접적으로 번역됩니다. 회계 에이전트에서의 굿하트의 법칙은 에이전트가 실제로 규정 준수를 확인하는 대신 모든 항목에 "이 거래는 추가 증빙 서류가 필요할 수 있습니다"와 같은 상투적인 면책 조항을 추가하는 법을 배우는 형태로 나타날 것입니다. 이는 안전 계층이 없는 것보다 더 나쁠 수 있는데, 거짓된 확신을 주기 때문입니다. 보정 문제는 임계값 결정에 중요합니다. 과신하는 보상 모델은 사소한 정책 위반을 포착하지 못하는 거의 이진화된 점수를 줄 것입니다. 그리고 이중 용도 우려도 다시 나타납니다. 동일한 기술을 사용하여 거래를 은폐하도록 설계된 지침을 충실히 따르는 에이전트를 훈련하는 데 사용될 수 있습니다.
논문이 다루지 않는 것은 시간적 일관성입니다. 즉, CAI로 훈련된 에이전트가 전체 원장 기록에 걸쳐 규칙을 균일하게 적용하는지, 아니면 단지 항목별로 국지적으로만 적용하는지 여부입니다. 이 간극은 월말 결산 및 다단계 워크플로에 있어 중요합니다.
다 음 읽을거리
- Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — 헌법 자체를 크라우드소싱하는 방법을 탐구합니다. Bean Labs가 규칙을 일방적으로 인코딩하는 대신 여러 이해관계자로부터 회계 규칙을 도출하는 방법과 직접적으로 관련이 있습니다.
- Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — 단일 고차원 원칙("인류를 위해 최선을 다하라")이 긴 구체적 목록을 대체할 수 있는지 테스트합니다. 그 답은 일반적인 재무 윤리에 의존하는 것과 회계 규칙을 얼마나 엄격하게 지정해야 하는지에 영향을 미칩니다.
- RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — CAI가 개선하고 있는 RLHF 베이스라인입니다. 원본을 이해하면 RLAIF가 실제로 얻는 이득이 무엇인지 가늠하는 데 도움이 됩니다.
