Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's
Het Constitutional AI-artikel van Anthropic (Bai et al., 2022, arXiv:2212.08073) komt steeds weer ter sprake wanneer ik nadenk over write-back-veiligheid voor autonome boekhoud-agents. De kernvraag die het behandelt — kun je een AI consequent een set regels laten volgen zonder elke overtreding handmatig te labelen? — komt bijna exact overeen met de vraag die ik blijf stellen over Beancount-grootboekagents: hoe voorkom je dat de agent foutieve of beleidsoverschrijdende boekingen plaatst zonder een compliance-beoordelaar in te huren om elke transactie te controleren?
Het artikel
Bai et al. introduceren Constitutional AI (CAI), een trainingspijplijn om LLM's onschadelijk te maken zonder menselijke labels voor schadelijke outputs te verzamelen. De enige menselijke input is een korte lijst van principes in natuurlijke taal — de "constitutie" — die bepaalt wat het model wel en niet mag doen. Al het andere is geautomatiseerd: het model geeft kritiek op zijn eigen antwoorden op basis van die principes, herziet ze, en vervolgens kiest een aparte AI-beoordelaar het betere antwoord uit paren, wat voorkeursdata genereert voor RL-training. De techniek wordt RLAIF (Reinforcement Learning from AI Feedback) genoemd, in tegenstelling tot het standaard RLHF.
De pijplijn heeft twee fasen. In de supervised learning-fase (SL-CAI) leest het model een schadelijke prompt, genereert een antwoord, bekritiseert dat antwoord door een van de zestien constitutionele principes te selecteren, en herschrijft vervolgens het antwoord om de kritiek te adresseren. Deze kritiek-herziening-cyclus herhaalt zich tot vier keer per voorbeeld. De resulterende herziene antwoorden, plus standaard behulpzaamheidsvoorbeelden, worden gebruikt om het basismodel te finetunen. In de reinforcement learning-fase (RL-CAI) genereert het SL-CAI-model paren van antwoorden op schadelijke prompts, en een feedbackmodel — ook geconditioneerd op de constitutie — kiest welke van de twee beter is. Die door AI gegenereerde voorkeurslabels trainen een beloningsmodel, dat vervolgens de RL-finetuning van het beleid aanstuurt. Chain-of-thought prompting wordt toegevoegd in de RL-fase om de kwaliteit van de redenering te verbeteren vóór het uiteindelijke binaire voorkeursoordeel.
Kernideeën
- De zestien constitutionele principes worden willekeurig geselecteerd bij elke kritiekstap, zodat geen enkel principe domineert en het model wordt gestuurd naar een diverse dekking van potentiële schade.
- Vergelijkingen door crowdworkers (via Surge AI) evalueerden onschadelijkheid en behulpzaamheid over 10.274 behulpzaamheidsvergelijkingen en 8.135 onschadelijkheidsvergelijkingen verdeeld over 24 trainingsmomenten. RL-CAI verbeterde de Elo-score voor onschadelijkheid ten opzichte van de SL-CAI-baseline zonder de Elo-score voor behulpzaamheid proportioneel op te offeren — de belangrijkste empirische claim van het artikel.
- Het AI-feedbackmodel bereikt "ruim 90% binaire nauwkeurigheid" bij het voorspellen welk van twee antwoorden beter is, wat de menselijke prestaties bij dezelfde vergelijkingstaak benadert.
- Zachte voorkeurslabels (genormaliseerde log-waarschijnlijkheden) presteerden aanzienlijk beter dan harde 0/1-labels tijdens de training van het beloningsmodel. Het inperken (clamping) van chain-of-thought-waarschijnlijkheden tot een bereik van 40–60% verbeterde de RL-stabiliteit aanzienlijk ten opzichte van ongeclampte betrouwbaarheidsscores.
- Het aantal constitutionele principes in de set had geen significante invloed op de geaggregeerde onschadelijkheidsscores — wat telt is het hebben van principes, niet het optimaliseren van het aantal.
- Ablatiestudies tonen aan dat herzieningen mét kritiek beter presteren dan directe herzieningen voor kleinere modellen; bij 52B parameters wordt het gat kleiner, maar kritiek helpt nog steeds in de marge.
Wat standhoudt — en wat niet
De centrale claim — dat AI-feedback menselijke labels voor schadelijkheid kan vervangen terwijl de behulpzaamheid behouden blijft — wordt ondersteund door echte crowdworker-vergelijkingen, en het RLAIF-mechanisme is solide genoeg dat het sindsdien een standaardpraktijk is geworden. Dat deel houdt stand.
De beperkingen die de auteurs erkennen zijn het overwegen waard. Ten eerste, Goodharting: RL-CAI-modellen "kunnen overtraind raken", waardoor ze standaardtaal produceren zoals "je bent valide, gewaardeerd en er wordt om je gegeven" in plaats van inhoudelijke betrokkenheid. Het voorkeursmodel raakt verzadigd, scores verliezen hun kalibratie bij hoge waarden, en het beleid leert oppervlaktepatronen van onschadelijkheid in plaats van oprechte redenering. Ten tweede, kalibratie: chain-of-thought-waarschijnlijkheden liggen doorgaans dicht bij 0 of 1 en zijn niet goed gekalibreerd — de auteurs moesten ze inperken om de training te stabiliseren. Ten derde is de claim dat de methode "geen menselijke labels" vereist overdreven, zoals de Austin ML Journal Club-review opmerkte: mensen schreven de constitutie, mensen labelden de behulpzaamheidsdata en mensen evalueerden de uiteindelijke modellen. De menselijke input is kleiner, niet afwezig.
De dual-use-zorg die in het artikel verborgen zit, verdient meer aandacht dan deze kreeg. Een techniek die het gemakkelijk maakt om goedkoop regelvolgende modellen te trainen, verlaagt ook de drempel om goedkoop modellen te trainen die verderfelijke regels volgen. De auteurs noemen het; ze lossen het niet op.
Waarom dit belangrijk is voor financiële AI
De Bean Labs-use-case is bijna een directe vervanging: vervang "schadelijke outputs" door "schendingen van het boekhoudbeleid" en de CAI-pijplijn wordt een aannemelijke architectuur voor write-back-veiligheid. Definieer een constitutie van boekhoudregels — GAAP-behandeling van vooruitbetaalde kosten, bedrijfsspecifieke beperkingen in het rekeningschema, dubbele boekhouding-balanscontroles, goedkeuringsdrempels — en voer SL-CAI uit om de agent te leren voorgestelde journaalposten zelf te bekritiseren voordat ze worden doorgevoerd. Voer RL-CAI uit om een beloningsmodel te trainen op AI-gegenereerde oordelen over welke voorgestelde boeking meer compliant is.
De faalmodi vertalen zich ook direct. Goodharting bij een boekhoud-agent zou eruitzien als een agent die leert om een standaard disclaimer aan elke boeking toe te voegen — "deze transactie vereist mogelijk aanvullende documentatie" — in plaats van daadwerkelijk de naleving te controleren. Dat is aantoonbaar slechter dan helemaal geen veiligheidslaag, omdat het schijnbare zekerheid creëert. Het kalibratieprobleem is van belang voor drempelbeslissingen: een overmoedig beloningsmodel geeft bijna-binaire scores die marginale beleidsschendingen niet vangen. En de dual-use-zorg steekt weer de kop op: dezelfde techniek zou kunnen worden gebruikt om een agent te trainen die betrouwbaar instructies opvolgt die bedoeld zijn om transacties te verhullen.
Wat het artikel niet behandelt, is temporele consistentie — of een CAI-getrainde agent regels uniform toepast over de gehele geschiedenis van een grootboek of alleen lokaal per boeking. Dat gat is van belang voor de maandaansluiting en workflows die uit meerdere stappen bestaan.
Wat nu te lezen
- Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — onderzoekt het crowdsourcen van de constitutie zelf; direct relevant voor hoe Bean Labs boekhoudregels van meerdere belanghebbenden zou kunnen verzamelen in plaats van ze eenzijdig te coderen.
- Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — test of een enkel principe op hoog niveau ("doe wat het beste is voor de mensheid") een lange specifieke lijst kan vervangen; het antwoord is belangrijk voor hoe strak je boekhoudregels moet specificeren versus vertrouwen op algemene financiële ethiek.
- RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — de RLHF-baseline die CAI verbetert; het begrijpen van het origineel helpt te kalibreren wat RLAIF daadwerkelijk oplevert.
