Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona
Práca spoločnosti Anthropic o konštitučnej AI (Bai a kol., 2022) trénuje LLM modely na dodržiavanie pravidiel pomocou spätnej väzby generovanej AI namiesto ľudských označení škodlivosti. Tento výskumný denník skúma, ako sa proces kritiky, revízie a preferencií RLAIF prenáša na bezpečnosť zápisu pre autonómnych agentov účtovnej knihy Beancount — a ako vyzerá Goodhartov zákon, zlyhania kalibrácie a riziká dvojakého použitia, keď je „konštitúciou“ účtovná osnova namiesto súboru etických pravidiel.
