IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting
L'article sobre IA constitucional d'Anthropic (Bai et al., 2022, arXiv:2212.08073) apareix contínuament cada vegada que penso en la seguretat de reescriptura (write-back safety) per a agents comptables autònoms. La pregunta central que aborda —es pot aconseguir que una IA segueixi de manera consistent un conjunt de regles sense haver d'etiquetar cada violació a mà?— s'aplica gairebé exactament a la pregunta que em faig sovint sobre els agents de llibres majors de Beancount: com evites que l'agent publiqui assentaments mal formats o que violin les polítiques sense haver de contractar un revisor de compliment per comprovar cada transacció?
L'article
Bai et al. presenten la IA Constitucional (CAI), un pipeline d'entrenament per fer que els LLM siguin inofensius sense recollir etiquetes humanes per a sortides perjudicials. L'única intervenció humana és una llista breu de principis en llenguatge natural —la «constitució»— que regeix el que el model hauria i no hauria de fer. Tota la resta està automatitzada: el model critica les seves pròpies respostes segons aquests principis, les revisa i, a continuació, un avaluador d'IA independent tria la millor resposta de cada parella, generant dades de preferència per a l'entrenament per reforç (RL). Aquesta tècnica s'anomena RLAIF (Reinforcement Learning from AI Feedback), en contraposició a l'estàndard RLHF.
El pipeline té dues fases. En la fase d'aprenentatge supervisat (SL-CAI), el model llegeix un prompt perjudicial, genera una resposta, critica aquesta resposta mitjançant el mostreig d'un dels setze principis constitucionals i, a continuació, reescriu la resposta per abordar la crítica. Aquest bucle de crítica-revisió es repeteix fins a quatre vegades per exemple. Les respostes revisades resultants, juntament amb exemples estàndard d'utilitat, s'utilitzen per ajustar el model base. En la fase d'aprenentatge per reforç (RL-CAI), el model SL-CAI genera parelles de respostes a prompts perjudicials, i un model de retroalimentació —també condicionat per la constitució— tria quina de les dues és millor. Aquestes etiquetes de preferència generades per IA entrenen un model de recompensa, que després impulsa l'ajust de RL de la política. S'afegeix el prompting de cadena de pensament (Chain-of-thought) en l'etapa de RL per millorar la qualitat del raonament abans del judici final de preferència binària.
Idees clau
- Els setze principis constitucionals es mostregen aleatòriament en cada pas de crítica, de manera que cap principi domina i el model es veu empès cap a una cobertura diversa dels danys potencials.
- Les comparacions de treballadors col·laboratius (via Surge AI) van avaluar la innocuïtat i la utilitat a través de 10.274 comparacions d'utilitat i 8.135 comparacions d'innocuïtat en 24 instantànies d'entrenament. El RL-CAI va millorar l'Elo d'innocuïtat en relació amb la línia base de SL-CAI sense sacrificar proporcionalment l'Elo d'utilitat; aquesta és la principal afirmació empírica de l'article.
- El model de retroalimentació de la IA aconsegueix «molt més del 90% de precisió binària» a l'hora de predir quina de les dues respostes és millor, apropant-se al rendiment humà en la mateixa tasca de comparació.
- Les etiquetes de preferència suaus (probabilitats logarítmiques normalitzades) van superar significativament les etiquetes dures 0/1 durant l'entrenament del model de recompensa. Limitar les probabilitats de la cadena de pensament a un rang del 40-60% va millorar substancialment l'estabilitat del RL respecte a les puntuacions de confiança no limitades.
- El nombre de principis constitucionals en el conjunt no va afectar significativament les puntuacions d'innocuïtat agregades; el que importa és tenir alguns principis, no optimitzar-ne el recompte.
- Les ablacions mostren que les revisions criticades superen les revisions directes per a models més petits; amb 52B de paràmetres la diferència s'estreta, però les crítiques segueixen ajudant en els marges.
Què es manté ferm — i què no
L'afirmació central —que la retroalimentació de la IA pot substituir les etiquetes humanes de dany mantenint la utilitat— està recolzada per comparacions reals de treballadors, i la maquinària RLAIF és prou sòlida com per haver-se convertit des de llavors en una pràctica estàndard. Aquesta part es manté.
Val la pena detenir-se en les limitacions que reconeixen els autors. Primer, el Goodharting: els models RL-CAI «poden arribar a estar sobreentrenats», produint un llenguatge de plantilla com «ets vàlid, valorat i cuidat» en lloc d'una interacció substancial. El model de preferència se satura, les puntuacions perden el calibratge en valors alts i la política aprèn patrons superficials d'innocuïtat en lloc d'un raonament genuí. Segon, el calibratge: les probabilitats de la cadena de pensament solen estar a prop de 0 o 1 i no estan ben calibrades; els autors les van haver de limitar per estabilitzar l'entrenament. Tercer, l'afirmació que el mètode no requereix «cap etiqueta humana» és exagerada, com va assenyalar la ressenya de l'Austin ML Journal Club: els humans van escriure la constitució, els humans van etiquetar les dades d'utilitat i els humans van avaluar els models finals. La intervenció humana és menor, no absent.
La preocupació pel doble ús enterrada a l'article mereix més atenció de la que va rebre. Una tècnica que facilita l'entrenament econòmic de models que segueixen regles també redueix la barrera per entrenar models que segueixin regles pernicioses de manera barata. Els autors ho esmenten, però no ho resolen.
Per què això és important per a la IA financera
El cas d'ús de Bean Labs és gairebé una substitució directa: substituïu les «sortides perjudicials» per «violacions de la política comptable» i el pipeline CAI es converteix en una arquitectura plausible per a la seguretat de reescriptura. Definiu una constitució de regles comptables —tractament GAAP de despeses pagades per avançat, restriccions del pla de comptes específiques de l'empresa, comprovacions de balanç de partida doble, llindars d'aprovació— i executeu SL-CAI per ensenyar a l'agent a autocriticar els assentaments proposats abans de registrar-los. Executeu RL-CAI per entrenar un model de recompensa basat en judicis generats per IA sobre quin assentament proposat és més compliant.
Els modes de fallada també es tradueixen directament. El Goodharting en un agent comptable es veuria com l'agent aprenent a afegir un avís genèric a cada entrada —«aquesta transacció pot requerir documentació addicional»— en lloc de comprovar realment el compliment. Això és possiblement pitjor que no tenir cap capa de seguretat, perquè crea una falsa sensació de seguretat. El problema del calibratge és important per a les decisions de llindar: un model de recompensa massa confiat donarà puntuacions gairebé binàries que no reflectiran les violacions marginals de la política. I la preocupació pel doble ús torna a aparèixer: la mateixa tècnica es podria utilitzar per entrenar un agent que segueixi de manera fiable instruccions dissenyades per ocultar transaccions.
El que l'article no aborda és la consistència temporal: si un agent entrenat amb CAI aplica les regles de manera uniforme en tota la història d'un llibre major o només localment per cada entrada. Aquesta mancança és important per a la conciliació de tancament de mes i els fluxos de treball de diversos passos.
Què llegir a continuació
- Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — explora la col·laboració oberta (crowdsourcing) per a la mateixa constitució; directament rellevant per a com Bean Labs podria extreure regles comptables de múltiples parts interessades en lloc de codificar-les de manera unilateral.
- Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — prova si un únic principi d'alt nivell («fes el que sigui millor per a la humanitat») pot substituir una llarga llista específica; la resposta és important per determinar amb quina precisió cal especificar les regles comptables en lloc de confiar en l'ètica financera general.
- RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — la línia base de RLHF que la CAI està millorant; entendre l'original ajuda a calibrar el que realment aporta el RLAIF.
