Zum Hauptinhalt springen

Konstitutionelle KI für Buchhaltungs-Agenten: RLAIF, Richtlinienregeln und Goodharting-Risiken

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Anthropics Paper zu Constitutional AI (Bai et al., 2022, arXiv:2212.08073) kommt mir immer wieder in den Sinn, wenn ich über die Rückschreibesicherheit (Write-back Safety) für autonome Buchhaltungs-Agenten nachdenke. Die Kernfrage, die es adressiert – kann man eine KI dazu bringen, ein Regelwerk konsistent zu befolgen, ohne jede Verletzung manuell zu kennzeichnen? – lässt sich fast exakt auf die Frage übertragen, die ich mir ständig zu Beancount-Hauptbuch-Agenten stelle: Wie verhindert man, dass der Agent fehlerhafte oder richtlinienwidrige Einträge postet, ohne einen Compliance-Prüfer einzustellen, der jede Transaktion kontrolliert?

Das Paper

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Bai et al. führen Constitutional AI (CAI) ein, eine Trainings-Pipeline, um LLMs harmlos zu machen, ohne menschliche Labels für schädliche Ausgaben zu sammeln. Der einzige menschliche Input ist eine kurze Liste von Prinzipien in natürlicher Sprache – die „Verfassung“ –, die regelt, was das Modell tun und lassen soll. Alles andere ist automatisiert: Das Modell kritisiert seine eigenen Antworten anhand dieser Prinzipien, überarbeitet sie, und ein separater KI-Evaluator wählt dann die bessere Antwort aus Paaren aus, wodurch Präferenzdaten für das RL-Training generiert werden. Die Technik wird RLAIF (Reinforcement Learning from AI Feedback) genannt, im Gegensatz zum Standard-RLHF.

Die Pipeline besteht aus zwei Phasen. In der Phase des überwachten Lernens (SL-CAI) liest das Modell einen schädlichen Prompt, generiert eine Antwort, kritisiert diese Antwort durch Stichproben eines von sechzehn konstitutionellen Prinzipien und schreibt die Antwort dann um, um die Kritik zu berücksichtigen. Diese Kritik-Überarbeitungs-Schleife wird pro Beispiel bis zu viermal wiederholt. Die resultierenden überarbeiteten Antworten werden zusammen mit Standardbeispielen für Hilfsbereitschaft verwendet, um das Basismodell feinabzustimmen. In der Phase des bestärkten Lernens (RL-CAI) generiert das SL-CAI-Modell Antwortpaare auf schädliche Prompts, und ein Feedback-Modell – das ebenfalls auf die Verfassung konditioniert ist – wählt aus, welche der beiden Antworten besser ist. Diese KI-generierten Präferenz-Labels trainieren ein Belohnungsmodell, das dann das RL-Finetuning der Policy steuert. In der RL-Phase wird Chain-of-Thought-Prompting hinzugefügt, um die Argumentationsqualität vor dem endgültigen binären Präferenzurteil zu verbessern.

Kernideen

  • Die sechzehn konstitutionellen Prinzipien werden bei jedem Kritikschritt zufällig ausgewählt, sodass kein einzelnes Prinzip dominiert und das Modell zu einer vielfältigen Abdeckung potenzieller Schäden gedrängt wird.
  • Vergleiche durch Crowdworker (via Surge AI) evaluierten Harmlosigkeit und Hilfsbereitschaft anhand von 10.274 Hilfsbereitschafts-Vergleichen und 8.135 Harmlosigkeits-Vergleichen über 24 Trainings-Snapshots hinweg. RL-CAI verbesserte den Harmlosigkeits-Elo im Vergleich zur SL-CAI-Baseline, ohne den Hilfsbereitschafts-Elo proportional zu opfern – die zentrale empirische Behauptung des Papers.
  • Das KI-Feedback-Modell erreicht eine „binäre Genauigkeit von weit über 90 %“ bei der Vorhersage, welche von zwei Antworten besser ist, und nähert sich damit der menschlichen Leistung bei derselben Vergleichsaufgabe an.
  • Soft-Präferenz-Labels (normalisierte Log-Wahrscheinlichkeiten) schnitten beim Training des Belohnungsmodells deutlich besser ab als harte 0/1-Labels. Die Begrenzung (Clamping) der Chain-of-Thought-Wahrscheinlichkeiten auf einen Bereich von 40–60 % verbesserte die RL-Stabilität gegenüber unbegrenzten Konfidenzwerten erheblich.
  • Die Anzahl der konstitutionellen Prinzipien im Set hatte keinen signifikanten Einfluss auf die aggregierten Harmlosigkeitswerte – entscheidend ist, dass überhaupt Prinzipien vorhanden sind, nicht die Optimierung der Anzahl.
  • Ablationsstudien zeigen, dass kritisierte Überarbeitungen bei kleineren Modellen besser abschneiden als direkte Überarbeitungen; bei 52 Mrd. Parametern verringert sich der Abstand, aber Kritiken helfen weiterhin in den Grenzbereichen.

Was Bestand hat – und was nicht

Die zentrale Behauptung – dass KI-Feedback menschliche Schadens-Labels ersetzen kann, während die Hilfsbereitschaft erhalten bleibt – wird durch reale Crowdworker-Vergleiche gestützt, und die RLAIF-Maschinerie ist so solide, dass sie inzwischen zum Standardverfahren geworden ist. Dieser Teil hat Bestand.

Die von den Autoren eingeräumten Einschränkungen sind beachtenswert. Erstens: Goodharting. RL-CAI-Modelle „können übertrainiert werden“ und produzieren Standardformeln wie „Sie sind wertvoll, geschätzt und man kümmert sich um Sie“, anstatt sich substanziell mit dem Thema auseinanderzusetzen. Das Präferenzmodell sättigt ab, die Scores verlieren bei hohen Werten ihre Kalibrierung, und die Policy lernt oberflächliche Muster von Harmlosigkeit anstatt echter Argumentation. Zweitens: Kalibrierung. Chain-of-Thought-Wahrscheinlichkeiten liegen typischerweise nahe bei 0 oder 1 und sind nicht gut kalibriert – die Autoren mussten sie begrenzen, um das Training zu stabilisieren. Drittens: Die Behauptung, die Methode erfordere „keine menschlichen Labels“, ist übertrieben, wie die Rezension des Austin ML Journal Club anmerkte: Menschen schrieben die Verfassung, Menschen labelten die Hilfsbereitschaftsdaten und Menschen evaluierten die endgültigen Modelle. Der menschliche Input ist geringer, aber nicht abwesend.

Die im Paper versteckte Sorge über Dual-Use verdient mehr Aufmerksamkeit, als sie erhalten hat. Eine Technik, die es einfach macht, regelkonforme Modelle kostengünstig zu trainieren, senkt auch die Hürde für das Training von Modellen, die schädlichen Regeln kostengünstig folgen. Die Autoren erwähnen dies, lösen es jedoch nicht auf.

Warum dies für Finanz-KI wichtig ist

Der Anwendungsfall bei Bean Labs ist fast eine direkte Substitution: Ersetzen Sie „schädliche Ausgaben“ durch „Verstöße gegen die Buchhaltungsrichtlinien“, und die CAI-Pipeline wird zu einer plausiblen Architektur für Rückschreibesicherheit. Definieren Sie eine Verfassung aus Buchhaltungsregeln – GAAP-Behandlung von aktiven Rechnungsabgrenzungsposten, unternehmensspezifische Kontenplan-Beschränkungen, Prüfungen der Bilanzgleichheit in der doppelten Buchführung, Genehmigungsschwellenwerte – und führen Sie SL-CAI aus, um dem Agenten beizubringen, vorgeschlagene Buchungssätze selbst zu kritisieren, bevor sie festgeschrieben werden. Nutzen Sie RL-CAI, um ein Belohnungsmodell auf KI-generierten Urteilen darüber zu trainieren, welcher vorgeschlagene Eintrag konformer ist.

Die Fehlermodi lassen sich ebenfalls direkt übertragen. Goodharting bei einem Buchhaltungs-Agenten sähe so aus, dass der Agent lernt, jedem Eintrag einen Standard-Disclaimer anzuhängen – „diese Transaktion erfordert möglicherweise zusätzliche Dokumentation“ –, anstatt die Compliance tatsächlich zu prüfen. Das ist wohl schlimmer als gar keine Sicherheitsebene, da es eine falsche Sicherheit vortäuscht. Das Kalibrierungsproblem ist für Schwellenwertentscheidungen relevant: Ein übermäßig selbstsicheres Belohnungsmodell liefert nahezu binäre Scores, die geringfügige Richtlinienverstöße nicht erfassen. Und die Dual-Use-Sorge taucht wieder auf: Dieselbe Technik könnte verwendet werden, um einen Agenten zu trainieren, der zuverlässig Anweisungen befolgt, die darauf ausgelegt sind, Transaktionen zu verschleiern.

Was das Paper nicht adressiert, ist die zeitliche Konsistenz – ob ein CAI-trainierter Agent Regeln einheitlich über eine gesamte Hauptbuchhistorie hinweg anwendet oder nur lokal pro Eintrag. Diese Lücke ist entscheidend für den Monatsabschluss und mehrstufige Arbeitsabläufe.

Was Sie als Nächstes lesen sollten

  • Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) – untersucht das Crowdsourcing der Verfassung selbst; direkt relevant dafür, wie Bean Labs Buchhaltungsregeln von mehreren Stakeholdern erfassen könnte, anstatt sie einseitig zu kodieren.
  • Specific versus General Principles for Constitutional AI (arXiv:2310.13798) – testet, ob ein einzelnes übergeordnetes Prinzip („tue, was das Beste für die Menschheit ist“) eine lange spezifische Liste ersetzen kann; die Antwort ist wichtig dafür, wie eng man Buchhaltungsregeln spezifizieren muss, versus sich auf allgemeine Finanzethik zu verlassen.
  • RLHF-Workflow für LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) – die RLHF-Baseline, die CAI verbessert; das Original zu verstehen, hilft dabei, einzuschätzen, was RLAIF tatsächlich bringt.