Перейти до основного вмісту

Конституційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Стаття Anthropic про Конституційний ШІ (Bai et al., 2022, arXiv:2212.08073) постійно згадується, коли я думаю про безпеку зворотного запису для автономних бухгалтерських агентів. Основне питання, яке вона вирішує — чи можна змусити ШІ послідовно дотримуватися набору правил без маркування кожного порушення вручну? — майже повністю збігається з питанням, яке я постійно ставлю щодо агентів реєстру Beancount: як зупинити агента від внесення некоректних або таких, що порушують політику, записів без найму спеціаліста з комплаєнсу для перевірки кожної транзакції?

Стаття

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Бай та ін. представляють Конституційний ШІ (CAI) — конвеєр навчання для створення нешкідливих LLM без збору людських міток для шкідливих результатів. Єдиним вхідним даним від людини є короткий список принципів природною мовою — «конституція», яка визначає, що модель повинна і чого не повинна робити. Усе інше автоматизовано: модель критикує власні відповіді на відповідність цим принципам, переглядає їх, а потім окремий ШІ-оцінювач вибирає кращу відповідь з пар, генеруючи дані про переваги для навчання з підкріпленням (RL). Ця техніка називається RLAIF (Reinforcement Learning from AI Feedback) на відміну від стандартного RLHF.

Конвеєр має дві фази. На фазі навчання з учителем (SL-CAI) модель зчитує шкідливий запит, генерує відповідь, критикує цю відповідь, вибираючи один із шістнадцяти конституційних принципів, а потім переписує відповідь, щоб врахувати критику. Цей цикл «критика-перегляд» повторюється до чотирьох разів для кожного прикладу. Отримані переглянуті відповіді разом зі стандартними прикладами корисності використовуються для тонкого налаштування базової моделі. На фазі навчання з підкріпленням (RL-CAI) модель SL-CAI генерує пари відповідей на шкідливі запити, а модель зворотного зв'язку — також обумовлена конституцією — вибирає, яка з двох краща. Ці згенеровані ШІ мітки переваг навчають модель винагороди, яка потім керує RL-тонким налаштуванням політики. На етапі RL додається спонукання через ланцюжок думок (chain-of-thought), щоб покращити якість міркувань перед остаточним бінарним судженням про переваги.

Ключові ідеї

  • Шістнадцять конституційних принципів вибираються випадковим чином на кожному етапі критики, тому жоден принцип не домінує, і модель спрямовується до різноманітного охоплення потенційної шкоди.
  • Порівняння краудворкерів (через Surge AI) оцінювало нешкідливість і корисність на основі 10 274 порівнянь корисності та 8 135 порівнянь нешкідливості у 24 знімках навчання. RL-CAI покращив показник Elo нешкідливості відносно базової лінії SL-CAI без пропорційної втрати Elo корисності — це головне емпіричне твердження статті.
  • Модель зворотного зв'язку ШІ досягає «понад 90% бінарної точності» у прогнозуванні того, яка з двох відповідей краща, наближаючись до результатів людини в тому самому завданні порівняння.
  • «М'які» мітки переваг (нормалізовані логарифмічні ймовірності) значно перевершили «жорсткі» мітки 0/1 під час навчання моделі винагороди. Обмеження ймовірностей ланцюжка думок діапазоном 40–60% суттєво покращило стабільність RL порівняно з необмеженими показниками впевненості.
  • Кількість конституційних принципів у наборі не вплинула суттєво на сукупні показники нешкідливості — важливо мати хоча б якісь принципи, а не оптимізувати їхню кількість.
  • Абляційні дослідження показують, що перегляди на основі критики перевершують прямі перегляди для менших моделей; при 52 млрд параметрів розрив скорочується, але критика все одно допомагає на межі.

Що залишається актуальним, а що ні

Центральне твердження — що зворотний зв'язок ШІ може замінити людські мітки шкоди, зберігаючи корисність — підтверджується реальними порівняннями краудворкерів, а механізм RLAIF настільки надійний, що з того часу став стандартною практикою. Ця частина залишається актуальною.

Варто зупинитися на обмеженнях, які визнають автори. По-перше, закон Ґудгарта: моделі RL-CAI «можуть стати перетренованими», створюючи шаблонні фрази на кшталт «ви значущі, цінні, і про вас піклуються» замість змістовної взаємодії. Модель переваг насичується, показники втрачають калібрування при високих значеннях, а політика вивчає поверхневі паттерни нешкідливості, а не справжні міркування. По-друге, калібрування: ймовірності ланцюжка думок зазвичай близькі до 0 або 1 і погано відкалібровані — авторам довелося обмежити їх для стабілізації навчання. По-третє, твердження про те, що метод не потребує «жодних людських міток», є перебільшенням, як зазначено в огляді Austin ML Journal Club: люди написали конституцію, люди позначили дані про корисність і люди оцінювали фінальні моделі. Внесок людини менший, але не відсутній.

Занепокоєння щодо подвійного призначення, приховане в статті, заслуговує на більшу увагу, ніж воно отримало. Техніка, яка дозволяє легко і дешево навчати моделі, що дотримуються правил, також знижує бар'єр для дешевого навчання моделей, які дотримуються згубних правил. Автори згадують про це, але не вирішують проблему.

Чому це важливо для фінансового ШІ

Кейс Bean Labs є майже прямою заміною: замініть «шкідливі результати» на «порушення бухгалтерської політики», і конвеєр CAI стане імовірною архітектурою для безпеки зворотного запису. Визначте конституцію бухгалтерських правил — трактування витрат майбутніх періодів за GAAP, специфічні для компанії обмеження плану рахунків, перевірки балансу подвійного запису, пороги затвердження — і запустіть SL-CAI, щоб навчити агента самокритиці запропонованих проводок перед їх фіксацією. Запустіть RL-CAI, щоб навчити модель винагороди на основі згенерованих ШІ суджень про те, яка із запропонованих проводок є більш відповідною правилам.

Режими відмови також транслюються безпосередньо. Ефект Ґудгарта в бухгалтерському агенті виглядатиме так: агент навчиться додавати шаблонну відмову від відповідальності до кожної проводки — «ця транзакція може потребувати додаткової документації» — замість фактичної перевірки на відповідність. Це, мабуть, гірше, ніж відсутність рівня безпеки взагалі, оскільки створює хибне відчуття впевненості. Проблема калібрування важлива для порогових рішень: надмірно впевнена модель винагороди даватиме майже бінарні оцінки, які не вловлюють незначні порушення політики. І знову виникає проблема подвійного призначення: ту саму техніку можна використати для навчання агента, який надійно виконує інструкції, спрямовані на приховування транзакцій.

Чого стаття не розглядає, так це часову послідовність — чи застосовує агент, навчений за допомогою CAI, правила рівномірно до всієї історії реєстру, чи лише локально для кожного запису. Ця прогалина важлива для звірки в кінці місяця та багатоетапних робочих процесів.

Що читати далі

  • Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — досліджує краудсорсинг самої конституції; безпосередньо стосується того, як Bean Labs може отримувати бухгалтерські правила від кількох стейкголдерів, а не кодувати їх односторонньо.
  • Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — перевіряє, чи може один високорівневий принцип («роби те, що найкраще для людства») замінити довгий список конкретних правил; відповідь важлива для того, наскільки детально потрібно визначати бухгалтерські правила порівняно з покладанням на загальну фінансову етику.
  • Робочий процес RLHF для LLM (Ouyang et al., InstructGPT, arXiv:2203.02155) — базова лінія RLHF, яку вдосконалює CAI; розуміння оригіналу допомагає оцінити, що саме дає RLAIF.