Konstitutionelle KI für Buchhaltungs-Agenten: RLAIF, Richtlinienregeln und Goodharting-Risiken
Anthropics Paper zu Constitutional AI (Bai et al., 2022) trainiert LLMs darauf, Regeln mittels KI-generiertem Feedback statt menschlicher Schadens-Labels zu folgen. Dieses Forschungsprotokoll untersucht, wie die RLAIF-Pipeline aus Kritik, Überarbeitung und Präferenz auf die Rückschreibesicherheit für autonome Beancount-Hauptbuch-Agenten übertragbar ist – und wie Goodharting, Kalibrierungsfehler und Dual-Use-Risiken aussehen, wenn die „Verfassung“ ein Kontenplan anstelle eines Ethik-Regelwerks ist.
