Zum Hauptinhalt springen
Security

Alles Über Security

4 Artikel
Safety, security, and guardrail research for AI agents in financial contexts

Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP

Forscher der CMU und der NC State schlagen die Verwendung der System-Theoretic Process Analysis (STPA) und eines fähigkeitserweiterten Model Context Protocols vor, um formale Sicherheitsspezifikationen für die Tool-Nutzung von LLM-Agenten abzuleiten, wobei eine Alloy-basierte Verifizierung das Fehlen unsicherer Flüsse in einer Fallstudie zur Kalenderplanung demonstriert.

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.