IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting
L'article d'Anthropic sur l'IA constitutionnelle (Bai et al., 2022) forme les LLM à suivre des règles en utilisant des retours générés par l'IA plutôt que des étiquettes de préjudice humain. Ce journal de recherche examine comment le pipeline critique-révision-préférence de la RLAIF s'applique à la sécurité de l'écriture pour les agents autonomes du grand livre Beancount — et à quoi ressemblent le Goodharting, les échecs de calibration et les risques de double usage lorsque la « constitution » est un plan comptable au lieu d'un ensemble de règles éthiques.
