Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“
Докум ентът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изследователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.
