IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart
El artículo sobre IA Constitucional de Anthropic (Bai et al., 2022) entrena LLMs para seguir reglas utilizando retroalimentación generada por IA en lugar de etiquetas humanas de daño. Este registro de investigación examina cómo el flujo de trabajo de crítica-revisión-preferencia de RLAIF se aplica a la seguridad de escritura para agentes autónomos de libros contables Beancount — y qué aspecto tienen la ley de Goodhart, los fallos de calibración y los riesgos de doble uso cuando la "constitución" es un plan de cuentas en lugar de un conjunto de reglas éticas.
