Конституційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта
Стаття Anthropic про Конституційний ШІ (Bai et al., 2022) нав чає великі мовні моделі (LLM) дотримуватися правил за допомогою зворотного зв'язку, створеного ШІ, а не міток людської шкоди. Цей дослідницький журнал розглядає, як конвеєр RLAIF «критика-перегляд-перевага» відображається на безпеці зворотного запису для автономних агентів реєстру Beancount — і як виглядають закон Ґудгарта, помилки калібрування та ризики подвійного призначення, коли «конституцією» є план рахунків, а не набір етичних правил.
