Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's
Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.
