회계 에이전트를 위한 헌법적 AI: RLAIF, 정책 규칙 및 굿하트의 법칙 리스크
Anthropic의 헌법적 AI(Constitutional AI) 논문(Bai et al., 2022)은 인간의 유해성 레이블 대신 AI 생성 피드백을 사용하여 LLM이 규칙을 따르도록 훈련합니다. 이 연구 로그는 RLAIF의 비판-수정-선호도 파이프라인이 자율적인 Beancount 원장 에이전트의 쓰기 작업 안전성에 어떻게 매핑되는지, 그리고 "헌법"이 윤리 규칙 세트가 아닌 계정 과목표일 때 굿하트의 법칙(Goodharting), 보정 실패 및 이중 용도 리스크가 어떤 모습인지 살펴봅니다.
