Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта
Статья Anthropic о конституционном ИИ (Bai et al., 2022) оп исывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.
