Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.
AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.
ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.
GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.