4 berichten getagd met "Security"

AILLMSecurityAutomationBeancountComplianceTrust

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.

Alles Over Security

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch