Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona
Práca spoločnosti Anthropic o konštitučnej AI (Bai a kol., 2022, arXiv:2212.08073) sa mi neustále vynára v mysli, kedykoľvek premýšľam o bezpečnosti zápisu pre autonómnych účtovných agentov. Základná otázka, ktorou sa zaoberá — či je možné prinútiť AI dôsledne dodržiavať súbor pravidiel bez manuálneho označovania každého porušenia — sa takmer presne zhoduje s otázkou, ktorú si kladiem ohľadom agentov účtovnej knihy Beancount: ako zabrániť agentovi v odosielaní nesprávne sformovaných záznamov alebo záznamov porušujúcich pravidlá bez toho, aby sme si museli najať kontrolóra zhody na preverenie každej transakcie?
Odborná práca
Bai a kol. predstavujú konštitučnú AI (CAI), tréningový proces na dosiahnutie neškodnosti LLM bez zhromažďovania ľudských označení pre škodlivé výstupy. Jediným ľudským vstupom je krátky zoznam princípov v prirodzenom jazyku — „konštitúcia“ — ktorá riadi, čo by model mal a nemal robiť. Všetko ostatné je automatizované: model kritizuje svoje vlastné odpovede na základe týchto princípov, reviduje ich a následne samostatný AI hodnotiteľ vyberie lepšiu odpoveď z dvojíc, čím generuje údaje o preferenciách pre RL tréning. Táto technika sa nazýva RLAIF (Reinforcement Learning from AI Feedback), na rozdiel od štandardného RLHF.
Proces má dve fázy. Vo fáze učenia s dohľadom (SL-CAI) model prečíta škodlivý podnet, vygeneruje odpoveď, skritizuje túto odpoveď výberom jedného zo šestnástich konštitučných princípov a potom odpoveď prepíše tak, aby zohľadnila kritiku. Táto slučka kritika-revízia sa opakuje až štyrikrát na každý príklad. Výsledné revidované odpovede spolu so štandardnými príkladmi užitočnosti sa použijú na doladenie (finetuning) základného modelu. Vo fáze posilňovaného učenia (RL-CAI) model SL-CAI generuje dvojice odpovedí na škodlivé podnety a model spätnej väzby — tiež podmienený konštitúciou — vyberie, ktorá z nich je lepšia. Tieto AI generované označenia preferencií trénujú model odmeny (reward model), ktorý následne poháňa RL doladenie politiky. V štádiu RL sa pridáva technika „reťazca myšlienok“ (chain-of-thought), aby sa zlepšila kvalita uvažovania pred finálnym binárnym posúdením preferencií.
Kľúčové myšlienky
- Šestnásť konštitučných princípov je náhodne vybraných v každom kroku kritiky, takže žiadny princíp nedominuje a model je tlačený k rôznorodému pokrytiu potenciálnych škôd.
- Porovnania od pracovníkov (cez Surge AI) hodnotili neškodnosť a užitočnosť naprieč 10 274 porovnaniami užitočnosti a 8 135 porovnaniami neškodnosti v 24 tréningových momentkách. RL-CAI zlepšila Elo skóre neškodnosti vzhľadom na východiskovú hodnotu SL-CAI bez proporcionálneho obetovania Elo skóre užitočnosti — čo je hlavné empirické tvrdenie práce.
- Model spätnej väzby AI dosahuje „viac ako 90 % binárnu presnosť“ pri predpovedaní toho, ktorá z dvoch odpovedí je lepšia, čím sa približuje k ľudskému výkonu v rovnakej úlohe.
- Mäkké označenia preferencií (normalizované log-pravdepodobnosti) výrazne prekonali tvrdé označenia 0/1 počas tréningu modelu odmeny. Obmedzenie pravdepodobností reťazca myšlienok na rozsah 40 – 60 % podstatne zlepšilo stabilitu RL oproti neobmedzeným skóre spoľahlivosti.
- Počet konštitučných princípov v súbore nemal výrazný vplyv na celkové skóre neškodnosti — dôležité je mať nejaké princípy, nie optimalizovať ich počet.
- Ablácie ukazujú, že revízie založené na kritike prekonávajú priame revízie u menších modelov; pri 52 miliardách parametrov sa rozdiel zmenšuje, ale kritiky stále pomáhajú na okrajoch.
Čo platí — a čo nie
Hlavné tvrdenie — že spätná väzba od AI môže nahradiť ľudské označenia škodlivosti pri zachovaní užitočnosti — je podložené reálnymi porovnaniami pracovníkov a mechanizmus RLAIF je dostatočne robustný na to, aby sa odvtedy stal štandardnou praxou. Táto časť platí.
Ohraničenia, ktoré autori priznávajú, stoja za zamyslenie. Po prvé, Goodharting (Goodhartov zákon): modely RL-CAI sa „môžu stať pretrénovanými“, pričom produkujú šablónovitý jazyk typu „ste dôležitý, cenený a je o vás postarané“ namiesto vecnej angažovanosti. Model preferencií sa nasýti, skóre stráca kalibráciu pri vysokých hodnotách a politika sa učí povrchné vzorce neškodnosti namiesto skutočného uvažovania. Po druhé, kalibrácia: pravdepodobnosti reťazca myšlienok sú zvyčajne blízko 0 alebo 1 a nie sú dobre kalibrované — autori ich museli obmedziť, aby stabilizovali tréning. Po tretie, tvrdenie, že metóda si nevyžaduje „žiadne ľudské označenia“, je prehnané, ako poznamenala recenzia Austin ML Journal Club: ľudia napísali konštitúciu, ľudia označili údaje o užitočnosti a ľudia vyhodnotili finálne modely. Ľudský vstup je menší, ale nie absentujúci.
Obava z dvojakého použitia (dual-use) ukrytá v práci si zaslúži viac pozornosti, než sa jej dostalo. Technika, ktorá uľahčuje lacný tréning modelov dodržiavajúcich pravidlá, zároveň znižuje bariéru pre lacný tréning modelov, ktoré dodržiavajú škodlivé pravidlá. Autori to spomínajú, ale neriešia.
Prečo je to dôležité pre finančnú AI
Prípad použitia v Bean Labs je takmer priamou substitúciou: nahraďte „škodlivé výstupy“ „porušeniami účtovnej politiky“ a proces CAI sa stane prijateľnou architektúrou pre bezpečnosť zápisu. Definujte konštitúciu účtovných pravidiel — spracovanie predplatených nákladov podľa GAAP, špecifické obmedzenia účtovnej osnovy spoločnosti, kontrolu zostatkov podvojného účtovníctva, schvaľovacie limity — a spustite SL-CAI, aby ste naučili agenta sebakritike navrhovaných účtovných zápisov pred ich potvrdením. Spustite RL-CAI na vytrénovanie modelu odmeny na AI generovaných úsudkoch o tom, ktorý navrhovaný zápis je viac v súlade s pravidlami.
Chybové režimy sa prenášajú tiež priamo. Goodharting u účtovného agenta by vyzeral tak, že by sa agent naučil ku každému záznamu pripájať šablónové vyhlásenie — „táto transakcia môže vyžadovať dodatočnú dokumentáciu“ — namiesto skutočnej kontroly dodržiavania pravidiel. To je pravdepodobne horšie ako žiadna bezpečnostná vrstva, pretože to vytvára falošnú istotu. Problém kalibrácie je dôležitý pre prahové rozhodnutia: príliš sebavedomý model odmeny poskytne takmer binárne skóre, ktoré nezachytí hraničné porušenia politiky. A obava z dvojakého použitia sa opäť objavuje: rovnaká technika by sa dala použiť na vytrénovanie agenta, ktorý spoľahlivo plní pokyny určené na zakrytie transakcií.
Čo práca nerieši, je časová konzistencia — či agent vytrénovaný pomocou CAI uplatňuje pravidlá jednotne v celej histórii účtovnej knihy alebo len lokálne pri každom zázname. Tento rozdiel je kľúčový pre mesačnú uzávierku a viacstupňové pracovné postupy.
Čo čítať ďalej
- Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — skúma crowdsourcing samotnej konštitúcie; priamo relevantné pre to, ako by Bean Labs mohli získavať účtovné pravidlá od viacerých zainteresovaných strán namiesto ich jednostranného kódovania.
- Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — testuje, či jeden princíp na vysokej úrovni („rob to, čo je najlepšie pre ľudstvo“) môže nahradiť dlhý zoznam špecifických pravidiel; odpoveď je dôležitá pre to, ako presne musíte špecifikovať účtovné pravidlá oproti spoliehaniu sa na všeobecnú finančnú etiku.
- RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — základ RLHF, ktorý CAI vylepšuje; pochopenie originálu pomáha kalibrovať, čo RLAIF skutočne prináša.
