Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“
Документът на Anthropic за Конституционен ИИ (Bai et al., 2022, arXiv:2212.08073) продължава да изниква в съзнанието ми всеки път, когато мисля за безопасността при обратно записване (write-back safety) за автономни счетоводни агенти. Основният въпрос, който разглежда — може ли да се накара един ИИ последователно да следва набор от правила, без да се етикетира всяко нарушение ръчно? — се проектира почти точно върху въпроса, който продължавам да задавам за агентите за Beancount регистри: как да спрете агента да публикува неправилно оформени или нарушаващи политиката записи, без да наемате проверяващ съответствието (compliance reviewer), който да инспектира всяка трансакция?
Документът
Bai et al. представят Конституционен ИИ (CAI), конвейер за обучение, целящ да направи големите езикови модели (LLM) безвредни, без да се събират човешки етикети за вредни резултати. Единственият човешки принос е кратък списък с принципи на естествен език — „конституцията“, която урежда какво трябва и какво не трябва да прави моделът. Всичко останало е автоматизирано: моделът критикува собствените си отговори спрямо тези принципи, преразглежда ги, а след това отделен ИИ оценител избира по-добрия отговор от двойки, генерирайки данни за предпочитания за RL обучение. Техниката се нарича RLAIF (Обучение чрез подсилване от обратна връзка от ИИ), за разлика от стандартния RLHF.
Конвейерът има две фази. Във фазата на контролирано обучение (SL-CAI), моделът чете вредна подкана, генерира отговор, критикува този отговор чрез извличане на един от шестнадесет конституционни принципа, след което пренаписва отговора, за да адресира критиката. Този цикъл критика-преразглеждане се повтаря до четири пъти за всеки пример. Получените преразгледани отговори, заедно със стандартни примери за полезност, се използват за донастройка на базовия модел. Във фазата на обучение чрез подсилване (RL-CAI), моделът SL-CAI генерира двойки отговори на вредни подкани, а модел за обратна връзка — също обусловен от конституцията — избира кой от двата е по-добър. Тези генерирани от ИИ етикети за предпочитания обучават модел за възнаграждение, който след това движи RL донастройката на политиката. На етапа на RL се добавя подканване чрез верига от мисли (chain-of-thought), за да се подобри качеството на разсъжденията преди крайната бинарна преценка за предпочитание.
Ключови идеи
- Шестнадесетте конституционни принципа се избират произволно при всяка стъпка на критика, така че нито един принцип не доминира и моделът се подтиква към разнообразно покритие на потенциалните вреди.
- Сравнения от работници в платформи за микрозадачи (чрез Surge AI) оцениха безвредността и полезността чрез 10 274 сравнения на полезността и 8 135 сравнения на безвредността в 24 моментни снимки на обучението. RL-CAI подобри Elo рейтинга за безвредност спрямо базовата линия SL-CAI, без пропорционално да жертва Elo за полезност — основното емпирично твърдение на документа.
- Моделът за обратна връзка от ИИ постига „над 90% бинарна точност“ при предвиждането на това кой от двата отговора е по-добър, доближавайки се до човешкото представяне при същата задача за сравнение.
- Меките етикети за предпочитания (нормализирани логаритмични вероятности) значително превъзхождат твърдите 0/1 етикети по време на обучението на модела за възнаграждение. Ограничаването на вероятностите на веригата от мисли в диапазона 40–60% значително подобри стабилността на RL спрямо неограничените резултати за увереност.
- Броят на конституционните принципи в набора не повлия значително на общите резултати за безвредност — важното е да има някакви принципи, а не да се оптимизира техният брой.
- Аблационните изследвания показват, че преразглежданията с критика превъзхождат директните преразглеждания за по-малки модели; при 52 милиарда параметри разликата се стеснява, но критиките все пак помагат в граничните случаи.
Какво се потвърждава — и какво не
Централното твърдение — че обратната връзка от ИИ може да замени човешките етикети за вреда, запазвайки полезността — е подкрепено от реални сравнения от потребители, а механизмът RLAIF е достатъчно солиден, че оттогава се е прев ърнал в стандартна практика. Тази част се потвърждава.
Ограниченията, които авторите признават, заслужават внимание. Първо, ефектът на Гуудхарт: моделите RL-CAI „могат да станат прекалено обучени“, произвеждайки клишета като „вие сте валиден, ценен и обгрижван“, вместо същинско взаимодействие. Моделът на предпочитанията се насища, резултатите губят калибриране при високи стойности и политиката научава повърхностни модели на безвредност, а не истински разсъждения. Второ, калибрирането: вероятностите при веригата от мисли обикновено са близо до 0 или 1 и не са добре калибрирани — авторите трябваше да ги ограничат, за да стабилизират обучението. Трето, твърдението, че методът не изисква „никакви човешки етикети“, е преувеличено, както отбеляза рецензията на Austin ML Journal Club: хора са написали конституцията, хора са етикетирали данните за полезност и хора са оценили финалните модели. Човешкият принос е по-малък, но не отсъства.
Опасенията за двойна употреба, скрити в документа, заслужават повече внимание, отколкото получиха. Техника, която улеснява евтиното обучение на модели, следващи правила, също така намалява бариерата за евтино обучение на модели, които следват пагубни правила. Авторите го споменават, но не го разрешават.
Защо това е важно за финансовия ИИ
Случаят на употреба в Bean Labs е почти директна замяна: заменете „вредни резултати“ с „нарушения на счетоводната политика“ и конвейерът CAI се превръща в правдоподобна архитектура за безопасност при обратно записване. Дефинирайте конституция от счетоводни правила — третиране по GAAP на предплатени разходи, специфични за компанията ограничения в сметкоплана, проверки на баланса при двустранно счетоводство, прагове за одобрение — и пуснете SL-CAI, за да научите агента да самокритикува предложените счетоводни записвания, преди да ги потвърди. Пуснете RL-CAI, за да обучите модел за възнаграждение върху генерирани от ИИ преценки за това кое предложено записване е по-съобразено с правилата.
Режимите на отказ също се пренасят директно. Ефектът на Гуудхарт в един счетоводен агент би изглеждал като научаване на агента да добавя стандартно предупреждение към всеки запис — „тази трансакция може да изисква допълнителна документация“ — вместо действително да проверява съответствието. Това вероятно е по-лошо от липсата на слой за безопасност, защото създава фалшива сигурност. Проблемът с калибрирането е важен за праговите решения: прекалено уверен модел за възнаграждение ще даде почти бинарни оценки, които не улавят пределните нарушения на политиката. И опасението за двойна употреба се появява отново: същата техника може да се използва за обучение на агент, който надеждно следва инструкции, предназначени за прикриване на трансакции.
Това, което документът не разглежда, е времевата последователност — дали агент, обучен чрез CAI, прилага правилата еднакво в цялата история на регистъра или само локално за всяко записване. Тази празнина е важна за равняването в края на месеца и работните процеси в няколко стъпки.
Какво да прочетете след това
- Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — изследва генерирането на самата конституция чрез краудсорсинг; пряко свързано с това как Bean Labs може да изведе счетоводни правила от множество заинтересовани страни, вместо да ги кодира едностранно.
- Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — тества дали един единствен принцип на високо ниво („прави това, което е най-добро за човечеството“) може да замени дълъг списък от специфични принципи; отговорът е важен за това колко тясно трябва да специфицирате счетоводните правила спрямо разчитането на обща финансова етика.
- RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — базовата линия RLHF, която CAI подобрява; разбирането на оригинала помага да се калибрира какво всъщност печели RLAIF.
