4 Posts getaggt mit „Security“

AILLMSecurityAutomationBeancountComplianceTrust

Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP

Forscher der CMU und der NC State schlagen die Verwendung der System-Theoretic Process Analysis (STPA) und eines fähigkeitserweiterten Model Context Protocols vor, um formale Sicherheitsspezifikationen für die Tool-Nutzung von LLM-Agenten abzuleiten, wobei eine Alloy-basierte Verifizierung das Fehlen unsicherer Flüsse in einer Fallstudie zur Kalenderplanung demonstriert.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten

ShieldAgent (ICML 2025) ersetzt LLM-basierte Guardrails durch probabilistische Regel-Schaltkreise auf Basis von Markov-Logik-Netzwerken und erreicht eine Genauigkeit von 90,4 % bei Agentenangriffen mit 64,7 % weniger API-Aufrufen – und was dies für die verifizierbare Sicherheit in KI-Finanzsystemen bedeutet.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

Alles Über Security

Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches