Перейти к контенту

Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Статья Anthropic о конституционном ИИ (Bai et al., 2022, arXiv:2212.08073) постоянно всплывает в памяти, когда я думаю о безопасности записи (write-back safety) для автономных бухгалтерских агентов. Основной вопрос, который в ней рассматривается — можно ли заставить ИИ последовательно следовать набору правил без ручной маркировки каждого нарушения? — почти в точности совпадает с вопросом, который я задаю об агентах для реестров Beancount: как предотвратить публикацию агентом некорректных или нарушающих политику записей без найма специалиста по комплаенсу для проверки каждой транзакции?

Статья

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Бай и соавторы представляют конституционный ИИ (CAI) — конвейер обучения для того, чтобы сделать LLM безвредными без сбора человеческих меток для вредного контента. Единственный вклад человека — это краткий список принципов на естественном языке, «конституция», которая определяет, что модель должна и не должна делать. Все остальное автоматизировано: модель критикует собственные ответы на соответствие этим принципам, дорабатывает их, а затем отдельный ИИ-оценщик выбирает лучший ответ из пар, генерируя данные о предпочтениях для обучения с подкреплением (RL). Эту технику называют RLAIF (Reinforcement Learning from AI Feedback — обучение с подкреплением на основе обратной связи от ИИ) в отличие от стандартного RLHF.

Конвейер состоит из двух этапов. На этапе обучения с учителем (SL-CAI) модель получает вредный промпт, генерирует ответ, критикует его, выбирая один из шестнадцати конституционных принципов, а затем переписывает ответ с учетом критики. Этот цикл критики и доработки повторяется до четырех раз для каждого примера. Полученные доработанные ответы вместе со стандартными примерами полезности используются для тонкой настройки базовой модели. На этапе обучения с подкреплением (RL-CAI) модель SL-CAI генерирует пары ответов на вредные промпты, а модель обратной связи — также обусловленная конституцией — выбирает, какой из двух лучше. Эти сгенерированные ИИ метки предпочтений обучают модель вознаграждения, которая затем управляет RL-настройкой политики. На этапе RL добавляется промптинг «цепочка рассуждений» (chain-of-thought) для улучшения качества обоснования перед вынесением окончательного бинарного суждения о предпочтениях.

Ключевые идеи

  • Шестнадцать конституционных принципов выбираются случайным образом на каждом этапе критики, поэтому ни один принцип не доминирует, и модель подталкивается к разнообразному охвату потенциальных угроз.
  • Сравнения, проведенные работниками (через Surge AI), оценивали безвредность и полезность в 10 274 сравнениях полезности и 8 135 сравнениях безвредности в 24 снимках обучения. RL-CAI улучшил показатель Elo безвредности по сравнению с базовым уровнем SL-CAI без пропорциональной потери Elo полезности — это основное эмпирическое утверждение статьи.
  • Модель обратной связи ИИ достигает «точности бинарного выбора более 90%» при прогнозировании того, какой из двух ответов лучше, приближаясь к показателям человека в той же задаче сравнения.
  • Мягкие метки предпочтений (нормализованные логарифмические вероятности) значительно превзошли жесткие метки 0/1 при обучении модели вознаграждения. Ограничение вероятностей «цепочки рассуждений» в диапазоне 40–60% существенно повысило стабильность RL по сравнению с неограниченными оценками уверенности.
  • Количество конституционных принципов в наборе существенно не повлияло на совокупные показатели безвредности — важно наличие самих принципов, а не оптимизация их количества.
  • Абляция показывает, что доработки с критикой превосходят прямые доработки для небольших моделей; при 52 млрд параметров разрыв сокращается, но критика все равно помогает на периферии.

Что подтверждается, а что — нет

Центральное утверждение о том, что обратная связь от ИИ может заменить человеческие метки вреда, сохраняя при этом полезность, подтверждается реальными сравнениями с участием людей, а механизмы RLAIF достаточно надежны, чтобы с тех пор стать стандартной практикой. Эта часть подтверждается.

Стоит остановиться на ограничениях, которые признают авторы. Во-первых, закон Гудхарта: модели RL-CAI «могут стать переобученными», выдавая шаблонные фразы вроде «вы ценны, важны и о вас заботятся» вместо содержательного взаимодействия. Модель предпочтений насыщается, оценки теряют калибровку при высоких значениях, и политика усваивает поверхностные признаки безвредности, а не подлинное рассуждение. Во-вторых, калибровка: вероятности цепочки рассуждений обычно близки к 0 или 1 и плохо откалиброваны — авторам пришлось ограничить их для стабилизации обучения. В-третьих, утверждение о том, что метод не требует «никаких меток от человека», преувеличено, как было отмечено в обзоре Austin ML Journal Club: люди написали конституцию, люди пометили данные о полезности и люди оценивали финальные модели. Участие человека меньше, но оно не отсутствует.

Опасения по поводу двойного назначения, скрытые в статье, заслуживают большего внимания. Технология, упрощающая дешевое обучение моделей, следующих правилам, также снижает барьер для дешевого обучения моделей, следующих пагубным правилам. Авторы упоминают об этом, но не решают проблему.

Почему это важно для ИИ в финансах

Кейс Bean Labs — это почти прямая замена: замените «вредные результаты» на «нарушения учетной политики», и конвейер CAI станет правдоподобной архитектурой для безопасности записи. Определите конституцию бухгалтерских правил — порядок учета предоплаченных расходов по GAAP, ограничения плана счетов конкретной компании, проверки баланса двойной записи, пороги утверждения — и запустите SL-CAI, чтобы научить агента самокритике предлагаемых записей журнала перед их фиксацией. Запустите RL-CAI для обучения модели вознаграждения на основе сгенерированных ИИ суждений о том, какая из предложенных записей более соответствует правилам.

Режимы отказа также переносятся напрямую. Проявление закона Гудхарта в бухгалтерском агенте будет выглядеть так: агент научится добавлять шаблонный отказ от ответственности к каждой записи — «эта транзакция может потребовать дополнительной документации» — вместо того, чтобы на самом деле проверять соответствие правилам. Это, пожалуй, хуже, чем полное отсутствие уровня безопасности, поскольку создает ложную уверенность. Проблема калибровки важна для пороговых решений: самоуверенная модель вознаграждения будет выдавать почти бинарные оценки, которые не отражают незначительные нарушения политики. И снова возникает проблема двойного назначения: ту же технику можно использовать для обучения агента, который надежно следует инструкциям, предназначенным для сокрытия транзакций.

Чего в статье нет, так это вопроса временной согласованности — применяет ли агент, обученный с помощью CAI, правила единообразно ко всей истории реестра или только локально для каждой записи. Этот пробел критичен для сверки в конце месяца и многоэтапных рабочих процессов.

Что почитать дальше

  • Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — исследует краудсорсинг самой конституции; напрямую относится к тому, как Bean Labs могла бы собирать правила учета от множества заинтересованных сторон, а не кодировать их в одностороннем порядке.
  • Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — проверяет, может ли один высокоуровневый принцип («делай то, что лучше для человечества») заменить длинный список конкретных; ответ важен для того, насколько жестко нужно специфицировать правила учета, а не полагаться на общую финансовую этику.
  • RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — база RLHF, которую улучшает CAI; понимание оригинала помогает оценить, что на самом деле дает RLAIF.