IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting
O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022) treina LLMs para seguir regras usando feedback gerado por IA em vez de rótulos humanos de danos. Este registro de pesquisa examina como o pipeline de crítica-revisão-preferência do RLAIF se mapeia na segurança de gravação para agentes autônomos de livros contábeis Beancount — e como são os riscos de Goodharting, falhas de calibração e uso dual quando a "constituição" é um plano de contas em vez de um conjunto de regras éticas.
