AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen
Ich habe das Wettrüsten bei den Guardrails für LLM-Agenten genau verfolgt – GuardAgent im Jahr 2024, ShieldAgent auf der ICML 2025 – und AGrail (Luo et al., ACL 2025) ist der nächste Schritt, den ich lesen musste. Es adressiert die Skalierbarkeitslücke, die keiner der Vorgänger schließen konnte: Was passiert, wenn ein einzelnes Guardrail-System Agenten über viele verschiedene Aufgaben hinweg schützen muss, von denen jede ihr eigenes Richtlinienvokabular und ihre eigene Risikofläche hat, ohne für jede einzeln vorprogrammiert zu sein?
Das Paper
Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen und Chaowei Xiao präsentieren AGrail – „A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection“ – veröffentlicht im Long-Paper-Track der ACL 2025. Das Kernproblem ist zweigeteilt: LLM-Agenten sind mit aufgabenspezifischen Risiken konfrontiert, die vom Administrator definiert werden (z. B. „lösche keine Dateien in diesem Verzeichnis“), sowie mit systemischen Risiken aus Design-Schwachstellen (Prompt Injection, Umgebungsangriffe). Bestehende Guardrails decken meist nur eine dieser Kategorien gut ab und erfordern eine manuelle Spezifikation der Richtlinien pro Aufgabe. Die Antwort von AGrail ist ein kooperatives Zwei-LLM-System – ein Analyzer und ein Executor –, das Sicherheitsprüfungen zur Inferenzzeit durch Test-Time Adaptation (TTA) generiert, testet und iterativ verfeinert. Die verfeinerten Prüfungen werden in einem Memory-Modul gespeichert, das das Gelernte auf zukünftige Aufgaben überträgt.
Kernideen
- Kooperation zweier LLMs: Der Analyzer ruft relevante Sicherheitsprüfungen aus dem Speicher ab, überarbeitet sie und schlägt aktualisierte Prüfsätze vor. Der Executor bewertet jede vorgeschlagene Prüfung – er entscheidet, ob ein externes Werkzeug aufgerufen werden soll, ob er sich auf eigenes logisches Schließen verlässt oder ob eine redundante Prüfung verworfen wird. Diese Schleife läuft iterativ, bis der Prüfsatz konvergiert.
- Speicher mit Step-Back-Prompting: Aktionen werden sowohl in natürlicher Sprache als auch als Tool-Befehlsdarstellungen mittels Step-Back-Prompting gespeichert. Während der Inferenz wird nur die Form in natürlicher Sprache angezeigt (um Interferenzen durch die Syntax der Rohbefehle zu vermeiden), aber beide werden für den Abruf verwendet. Der Speicher konvergiert etwa um die vierte TTA-Iteration, mit einer Kosinus-Ähnlichkeit von über 98 % über verschiedene Zufallswerte hinweg.
- Safe-OS-Benchmark: Die Autoren führen einen neuen Datensatz mit 100 Szenarien ein, die reale Interaktionen von OS-Agenten über Docker simulieren – 23 Prompt-Injections, 30 System-Sabotagen, 20 Umgebungsangriffe und 27 normale Fälle –, da kein bestehender Benchmark alle drei Arten systemischer Risiken kombinierte.
- 96 % Erhaltung legitimer Aktionen bei 0 % ASR für Prompt Injections: Auf Safe-OS mit Claude-3.5-Sonnet blockiert AGrail nur 4,4 % der legitimen Aktionen (95,6 % Erhaltung), während es eine Angriffs-Erfolgsrate (ASR) von 0 % gegen Prompt Injections erreicht. Konkurrierende Baselines blockieren bis zu 49,2 % der legitimen Aktionen.
- Ergebnisse zu aufgabenspezifischen Risiken: Auf Mind2Web-SC (Web-Agent) erreicht AGrail einen F1-Wert von 94,1 bei 95,8 % Übereinstimmung. Auf EICU-AC (Datenschutz im Gesundheitswesen) liegt der F1-Wert bei 98,5 mit 100 % Übereinstimmung.
- Instabilität bei schwächeren Modellen: GPT-4o-mini als Backbone zeigt Instabilitäten bei den Eingabesequenzen; Claude-3.5-Sonnet ist für eine zuverlässige Leistung erforderlich, was eine implizite Rechenvoraussetzung darstellt, die im Paper eher unterspielt wird.
Was Bestand hat – und was nicht
Das Ergebnis, das mich am meisten beeindruckt, ist der Falsch-Positiv-Vergleich: GuardAgent und LLaMA-Guard blockieren bis zu 49,2 % der legitimen Safe-OS-Aktionen. Das ist eine Usability-Katastrophe – eine Guardrail, die die Hälfte der normalen Arbeit als verdächtig markiert, wird niemand aktiviert lassen. Die Blockrate von 4,4 % bei legitimen Aktionen von AGrail ist wirklich ein Fortschritt.
Dennoch gibt es Lücken, die man benennen muss. Erstens sind die Zahlen zu Environmental Injection Attacks (EIA) weniger glanzvoll als die Schlagzeilen: Die ASR bei der Aktionsgenerierung liegt bei 28 % – mehr als jeder vierte Angriff kommt durch. Das Paper versteckt dies gegenüber dem 0-prozentigen Prompt-Injection-Ergebnis. Zweitens ist das Bedrohungsmodell eng gefasst: Safe-OS deckt drei Angriffsarten ab, aber das Paper evaluiert keine adversarialen Argumentationsketten, die den Analyzer komplett umgehen, oder Fälle, in denen ein ausreichend langer Kontext das Memory-Modul zu falschen Vorannahmen verleitet. Drittens erfordert der Ansatz des lebenslangen Lernens, dass der Agent wiederholt auf ähnliche Aktionen stößt, damit der Speicher konvergiert – das Ergebnis der Konvergenz in der vierten Iteration gilt für das kontrollierte Setup des Papers, aber es ist nicht offensichtlich, wie schnell der Speicher bei stark variierenden Aktionsverteilungen stabil wird. Viertens wird der Rechenaufwand durch den Betrieb von zwei LLMs plus TTA-Iterationen pro Agentenschritt nie quantifiziert. In latenzsensiblen Anwendungen fällt dieser Kostenfaktor ins Gewicht.
Die Autoren räumen ehrlich ein, dass sie von allgemeinen LLMs statt von spezialisierten Guardrail-Modellen abhängen und dass der Werkzeugaufruf minimal ist. Was sie nicht diskutieren, ist, wie die Richtlinienvorschläge des Analyzers selbst durch einen Angreifer manipuliert werden könnten, der die Step-Back-Prompting-Pipeline versteht.
Warum das für Finanz-KI wichtig ist
Die Taxonomie aus aufgabenspezifischen und systemischen Risiken lässt sich direkt auf Accounting-Agenten übertragen. Ein Beancount-Schreibagent ist mit aufgabenspezifischen Risiken konfrontiert (Administratorregeln: „nie in eine gesperrte Periode buchen“, „immer Zwei-Parteien-Genehmigung für Transaktionen über 10.000 $ erforderlich“) sowie mit systemischen Risiken (eine bösartige Notiz in einem Buchungstext, die Anweisungen einschleust). Der Ansatz von AGrail ist für diesen Anwendungsfall natürlicher als die formalen Regelkreise von ShieldAgent, da Buchhalter Richtlinien in natürlicher Sprache formulieren und nicht in Prädikatenlogik.
Der Aspekt des lebenslangen Lernens ist besonders relevant. Eine einzelne Instanz könnte Dutzende verschiedene Ledger schützen – jeder mit unterschiedlichen Kontenplan-Richtlinien, unterschiedlichen Geschäftsjahresgrenzen und unterschiedlichen Genehmigungshierarchien. Die Fähigkeit, Sicherheitsprüfungen von einem Ledger auf einen anderen zu übertragen und sie mittels TTA zu verfeinern, anstatt bei Null anzufangen, könnte den Konfigurationsaufwand pro Ledger erheblich reduzieren. Ob die aktuelle Implementierung dies tatsächlich im Maßstab einer echten mandantenfähigen Buchhaltungsplattform leistet, bleibt unbeantwortet – die Evaluierung deckt drei verschiedene Agentenaufgaben ab, nicht Dutzende.
Die 28-prozentige Fehlerrate bei der EIA-Aktionsgenerierung ist die Zahl, die mir Sorgen bereitet. Für einen Accounting-Agenten bedeutet ein erfolgreicher Angriff auf die Aktionsgenerierung, dass ein fehlerhafter Journalbuchungssatz festgeschrieben wird. Das ist ohne eine manuelle Prüfung nicht rückgängig zu machen. Eine Guardrail, bei der 28 % der EIA-Angriffe durchgehen, würde eine sekundäre Verifizierungsebene erfordern – was uns zurück zur Multi-Agenten-Debatte und zu formalen Verifizierungsdesigns führt, die bereits früher auf dieser Leseliste standen.
Was man als Nächstes lesen sollte
- M3MAD-Bench (arXiv:2601.02854) – das umfassendste Audit darüber, ob Multi-Agenten-Debatten tatsächlich über Modalitäten und Aufgaben hinweg helfen; direkt relevant, wenn das kooperative LLM-Design von AGrail für Finanz-Pipelines in Betracht gezogen wird.
- ShieldAgent (arXiv:2503.22738, ICML 2025) – der formale Verifizierungsansatz, mit dem AGrail implizit verglichen wird; das parallele Lesen beider Arbeiten verdeutlicht den Abwägungsprozess zwischen Adaptivität und formalen Garantien.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012, ICSE 2026) – kombiniert STPA-Prozessanalysen mit MCP, um erzwingbare Sicherheitsspezifikationen für werkzeugnutzende Agenten zu erstellen; die bisher systematischste Ergänzung zu AGrails Laufzeitprüfung.
