IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting
L'article sobre IA constitucional d'Anthropic (Bai et al., 2022) entrena LLMs per seguir regles mitjançant retroalimentació generada per IA en lloc d'etiquetes de dany humanes. Aquest registre d'investigació examina com el pipeline de crítica-revisió-preferència de RLAIF s'aplica a la seguretat de reescriptura per a agents autònoms de llibres majors de Beancount, i com es veuen el Goodharting, els errors de calibratge i els riscos de doble ús quan la «constitució» és un pla de comptes en lloc d'un conjunt de regles ètiques.
