Pular para o conteúdo principal

IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022, arXiv:2212.08073) continua surgindo sempre que penso na segurança de gravação (write-back safety) para agentes contábeis autônomos. A questão central que ele aborda — é possível fazer uma IA seguir consistentemente um conjunto de regras sem rotular cada violação manualmente? — mapeia-se quase exatamente na pergunta que continuo fazendo sobre os agentes de livros contábeis Beancount: como impedir o agente de postar lançamentos malformados ou que violem as políticas sem contratar um revisor de conformidade para verificar cada transação?

O artigo

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Bai et al. introduzem a IA Constitucional (CAI), um pipeline de treinamento para tornar LLMs inofensivos sem coletar rótulos humanos para saídas prejudiciais. A única entrada humana é uma pequena lista de princípios em linguagem natural — a "constituição" — que governa o que o modelo deve e não deve fazer. Tudo o mais é automatizado: o modelo critica as suas próprias respostas em relação a esses princípios, revisa-as e, em seguida, um avaliador de IA separado escolhe a melhor resposta entre pares, gerando dados de preferência para o treinamento de RL (Aprendizado por Reforço). A técnica é chamada de RLAIF (Reinforcement Learning from AI Feedback), em oposição ao RLHF padrão.

O pipeline tem duas fases. Na fase de aprendizado supervisionado (SL-CAI), o modelo lê um prompt prejudicial, gera uma resposta, critica essa resposta amostrando um de dezesseis princípios constitucionais e, em seguida, reescreve a resposta para abordar a crítica. Esse ciclo de crítica-revisão se repete até quatro vezes por exemplo. As respostas revisadas resultantes, além de exemplos padrão de prestatividade, são usadas para ajustar o modelo base. Na fase de aprendizado por reforço (RL-CAI), o modelo SL-CAI gera pares de respostas para prompts prejudiciais, e um modelo de feedback — também condicionado à constituição — escolhe qual das duas é melhor. Esses rótulos de preferência gerados por IA treinam um modelo de recompensa, que então impulsiona o ajuste fino de RL da política. O prompting de cadeia de pensamento (chain-of-thought) é adicionado na fase de RL para melhorar a qualidade do raciocínio antes do julgamento final de preferência binária.

Principais ideias

  • Os dezesseis princípios constitucionais são amostrados aleatoriamente em cada etapa de crítica, para que nenhum princípio único domine e o modelo seja levado a uma cobertura diversificada de danos potenciais.
  • Comparações de trabalhadores de crowdsourcing (via Surge AI) avaliaram a inocuidade e a prestatividade em 10.274 comparações de prestatividade e 8.135 comparações de inocuidade em 24 instantâneos de treinamento. O RL-CAI melhorou o Elo de inocuidade em relação à linha de base do SL-CAI sem sacrificar proporcionalmente o Elo de prestatividade — a principal alegação empírica do artigo.
  • O modelo de feedback de IA atinge "bem mais de 90% de precisão binária" na previsão de qual das duas respostas é melhor, aproximando-se do desempenho humano na mesma tarefa de comparação.
  • Rótulos de preferência suaves (probabilidades logarítmicas normalizadas) superaram significativamente os rótulos rígidos 0/1 durante o treinamento do modelo de recompensa. Limitar (clamping) as probabilidades da cadeia de pensamento a uma faixa de 40–60% melhorou substancialmente a estabilidade da RL em relação às pontuações de confiança não limitadas.
  • O número de princípios constitucionais no conjunto não afetou significativamente as pontuações agregadas de inocuidade — o que importa é ter alguns princípios, não otimizar a contagem.
  • As ablações mostram que revisões criticadas superam revisões diretas para modelos menores; com 52 bilhões de parâmetros, a lacuna diminui, mas as críticas ainda ajudam nas margens.

O que se sustenta — e o que não

A alegação central — que o feedback de IA pode substituir os rótulos humanos de danos preservando a prestatividade — é apoiada por comparações reais de trabalhadores de crowdsourcing, e o mecanismo RLAIF é robusto o suficiente para ter se tornado prática padrão desde então. Essa parte se sustenta.

Vale a pena refletir sobre as limitações que os autores reconhecem. Primeiro, o Goodharting: os modelos RL-CAI "podem se tornar supertreinados", produzindo linguagem clichê como "você é válido, valorizado e cuidado" em vez de um engajamento substantivo. O modelo de preferência satura, as pontuações perdem a calibração em valores altos e a política aprende padrões superficiais de inocuidade em vez de um raciocínio genuíno. Segundo, a calibração: as probabilidades da cadeia de pensamento são tipicamente próximas de 0 ou 1 e não são bem calibradas — os autores tiveram que limitá-las para estabilizar o treinamento. Terceiro, a afirmação de que o método requer "nenhum rótulo humano" é exagerada, como observou a revisão do Austin ML Journal Club: humanos escreveram a constituição, humanos rotularam os dados de prestatividade e humanos avaliaram os modelos finais. A entrada humana é menor, não ausente.

A preocupação com o uso dual enterrada no artigo merece mais atenção do que recebeu. Uma técnica que facilita o treinamento barato de modelos que seguem regras também reduz a barreira para o treinamento barato de modelos que seguem regras perniciosas. Os autores mencionam isso; eles não o resolvem.

Por que isso importa para a IA financeira

O caso de uso do Bean Labs é quase uma substituição direta: substitua "saídas prejudiciais" por "violações de políticas contábeis" e o pipeline CAI torna-se uma arquitetura plausível para segurança de gravação. Defina uma constituição de regras contábeis — tratamento GAAP de despesas antecipadas, restrições de plano de contas específicas da empresa, verificações de balanço por partidas dobradas, limites de aprovação — e execute o SL-CAI para ensinar o agente a autocrítica de lançamentos contábeis propostos antes de confirmá-los. Execute o RL-CAI para treinar um modelo de recompensa em julgamentos gerados por IA sobre qual lançamento proposto é mais complacente.

Os modos de falha também se traduzem diretamente. O Goodharting em um agente contábil pareceria o agente aprendendo a anexar um aviso padrão a cada lançamento — "esta transação pode exigir documentação adicional" — em vez de realmente verificar a conformidade. Isso é possivelmente pior do que nenhuma camada de segurança, porque cria uma falsa sensação de segurança. O problema da calibração importa para decisões de limite: um modelo de recompensa excessivamente confiante dará pontuações quase binárias que não capturam violações marginais de política. E a preocupação com o uso dual ressurge: a mesma técnica poderia ser usada para treinar um agente que segue fielmente instruções projetadas para ocultar transações.

O que o artigo não aborda é a consistência temporal — se um agente treinado por CAI aplica as regras uniformemente em todo o histórico de um livro-razão ou apenas localmente por lançamento. Essa lacuna é importante para a conciliação de fechamento mensal e fluxos de trabalho de várias etapas.

O que ler a seguir

  • IA Constitucional Coletiva: Alinhando um Modelo de Linguagem com a Entrada do Público (FAccT 2024) — explora o crowdsourcing da própria constituição; diretamente relevante para como o Bean Labs pode extrair regras contábeis de várias partes interessadas em vez de codificá-las unilateralmente.
  • Princípios Específicos versus Gerais para IA Constitucional (arXiv:2310.13798) — testa se um único princípio de alto nível ("faça o que é melhor para a humanidade") pode substituir uma longa lista específica; a resposta importa para o quão detalhadamente você precisa especificar as regras contábeis versus confiar na ética financeira geral.
  • Fluxo de trabalho RLHF para LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — a linha de base do RLHF que a CAI está melhorando; entender o original ajuda a calibrar o que o RLAIF realmente ganha.