Aller au contenu principal

IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

L'article d'Anthropic sur l'IA constitutionnelle (Bai et al., 2022, arXiv:2212.08073) revient sans cesse dès que je pense à la sécurité de l'écriture (write-back safety) pour les agents comptables autonomes. La question centrale qu'il aborde — peut-on amener une IA à suivre systématiquement un ensemble de règles sans étiqueter chaque violation à la main ? — correspond presque exactement à la question que je me pose concernant les agents du grand livre Beancount : comment empêcher l'agent de publier des écritures mal formées ou ne respectant pas les politiques sans embaucher un réviseur de conformité pour vérifier chaque transaction ?

L'article

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Bai et al. introduisent l'IA constitutionnelle (CAI), un pipeline d'entraînement pour rendre les LLM inoffensifs sans collecter d'étiquettes humaines pour les sorties nuisibles. Le seul apport humain est une courte liste de principes en langage naturel — la « constitution » — qui régit ce que le modèle doit ou ne doit pas faire. Tout le reste est automatisé : le modèle critique ses propres réponses par rapport à ces principes, les révise, puis un évaluateur IA distinct choisit la meilleure réponse parmi des paires, générant ainsi des données de préférence pour l'entraînement par renforcement (RL). La technique est appelée RLAIF (Reinforcement Learning from AI Feedback), par opposition au RLHF standard.

Le pipeline comprend deux phases. Dans la phase d'apprentissage supervisé (SL-CAI), le modèle lit une instruction nuisible, génère une réponse, critique cette réponse en échantillonnant l'un des seize principes constitutionnels, puis réécrit la réponse pour tenir compte de la critique. Cette boucle critique-révision se répète jusqu'à quatre fois par exemple. Les réponses révisées résultantes, ainsi que des exemples standard d'utilité, sont utilisés pour affiner le modèle de base. Dans la phase d'apprentissage par renforcement (RL-CAI), le modèle SL-CAI génère des paires de réponses à des instructions nuisibles, et un modèle de rétroaction — également conditionné par la constitution — choisit laquelle des deux est la meilleure. Ces étiquettes de préférence générées par l'IA entraînent un modèle de récompense, qui pilote ensuite l'ajustement par RL de la politique. L'incitation par chaîne de pensée (chain-of-thought) est ajoutée à l'étape RL pour améliorer la qualité du raisonnement avant le jugement de préférence binaire final.

Idées clés

  • Les seize principes constitutionnels sont échantillonnés de manière aléatoire à chaque étape de critique, afin qu'aucun principe unique ne domine et que le modèle soit poussé vers une couverture diversifiée des préjudices potentiels.
  • Des comparaisons effectuées par des travailleurs (via Surge AI) ont évalué le caractère inoffensif et l'utilité à travers 10 274 comparaisons d'utilité et 8 135 comparaisons de caractère inoffensif sur 24 instantanés d'entraînement. Le RL-CAI a amélioré le score Elo de caractère inoffensif par rapport à la référence SL-CAI sans sacrifier proportionnellement le score Elo d'utilité — la principale affirmation empirique de l'article.
  • Le modèle de rétroaction de l'IA atteint « bien plus de 90 % de précision binaire » pour prédire laquelle de deux réponses est la meilleure, approchant ainsi la performance humaine sur la même tâche de comparaison.
  • Les étiquettes de préférence souples (probabilités logarithmiques normalisées) ont nettement surpassé les étiquettes strictes 0/1 lors de l'entraînement du modèle de récompense. Le plafonnement des probabilités de la chaîne de pensée dans une fourchette de 40 à 60 % a considérablement amélioré la stabilité du RL par rapport aux scores de confiance non plafonnés.
  • Le nombre de principes constitutionnels dans l'ensemble n'a pas affecté de manière significative les scores globaux de caractère inoffensif — l'important est d'avoir des principes, pas d'en optimiser le nombre.
  • Les ablations montrent que les révisions critiquées surpassent les révisions directes pour les petits modèles ; à 52 milliards de paramètres, l'écart se réduit, mais les critiques aident toujours marginalement.

Ce qui tient la route — et ce qui ne la tient pas

L'affirmation centrale — selon laquelle le feedback de l'IA peut remplacer les étiquettes humaines de préjudice tout en préservant l'utilité — est étayée par des comparaisons réelles avec des travailleurs, et le mécanisme RLAIF est suffisamment robuste pour être devenu depuis une pratique standard. Cette partie tient la route.

Les limites reconnues par les auteurs méritent que l'on s'y attarde. Premièrement, le Goodharting : les modèles RL-CAI « peuvent devenir surentraînés », produisant un langage standardisé tel que « vous êtes valide, estimé et soutenu » au lieu d'un engagement substantiel. Le modèle de préférence sature, les scores perdent leur calibration aux valeurs élevées, et la politique apprend des motifs superficiels de caractère inoffensif plutôt qu'un véritable raisonnement. Deuxièmement, la calibration : les probabilités de chaîne de pensée sont généralement proches de 0 ou 1 et mal calibrées — les auteurs ont dû les plafonner pour stabiliser l'entraînement. Troisièmement, l'affirmation selon laquelle la méthode ne nécessite « aucune étiquette humaine » est exagérée, comme l'a noté la revue de l'Austin ML Journal Club : des humains ont écrit la constitution, des humains ont étiqueté les données d'utilité et des humains ont évalué les modèles finaux. L'apport humain est réduit, mais pas absent.

La préoccupation liée au double usage enfouie dans l'article mérite plus d'attention qu'elle n'en a reçu. Une technique qui facilite l'entraînement de modèles respectueux des règles à moindre coût abaisse également la barrière pour l'entraînement de modèles suivant des règles pernicieuses à bas prix. Les auteurs le mentionnent, mais ne le résolvent pas.

Pourquoi cela compte pour l'IA financière

Le cas d'utilisation de Bean Labs est presque une substitution directe : remplacez les « sorties nuisibles » par des « violations de la politique comptable » et le pipeline CAI devient une architecture plausible pour la sécurité de l'écriture (write-back safety). Définissez une constitution de règles comptables — traitement GAAP des charges constatées d'avance, contraintes du plan comptable spécifiques à l'entreprise, vérifications d'équilibre en partie double, seuils d'approbation — et exécutez le SL-CAI pour apprendre à l'agent à autocritiquer les écritures comptables proposées avant de les valider. Exécutez le RL-CAI pour entraîner un modèle de récompense sur des jugements générés par l'IA déterminant quelle proposition d'écriture est la plus conforme.

Les modes de défaillance se traduisent également directement. Le Goodharting chez un agent comptable se manifesterait par un agent apprenant à ajouter une clause de non-responsabilité standard à chaque écriture — « cette transaction peut nécessiter une documentation supplémentaire » — plutôt que de vérifier réellement la conformité. C'est sans doute pire que l'absence totale de couche de sécurité, car cela crée une fausse assurance. Le problème de calibration est crucial pour les décisions de seuil : un modèle de récompense trop confiant donnera des scores quasi binaires qui ne captent pas les violations marginales des politiques. Enfin, la préoccupation du double usage refait surface : la même technique pourrait être utilisée pour entraîner un agent qui suit fidèlement des instructions conçues pour dissimuler des transactions.

Ce que l'article n'aborde pas, c'est la cohérence temporelle — si un agent formé par CAI applique les règles uniformément sur toute l'historique d'un grand livre ou simplement localement par écriture. Cette lacune est importante pour le rapprochement de fin de mois et les flux de travail en plusieurs étapes.

Que lire ensuite

  • Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — explore l'externalisation de la constitution elle-même auprès du public ; directement pertinent pour la manière dont Bean Labs pourrait faire émerger des règles comptables de plusieurs parties prenantes plutôt que de les coder unilatéralement.
  • Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — teste si un principe unique de haut niveau (« faites ce qui est de mieux pour l'humanité ») peut remplacer une longue liste spécifique ; la réponse importe pour savoir avec quelle précision vous devez spécifier les règles comptables par rapport à une éthique financière générale.
  • RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — la référence RLHF que le CAI améliore ; comprendre l'original aide à calibrer ce que le RLAIF apporte réellement.