Investigadores de CMU y NC State proponen el uso del Análisis de Procesos Sistémico-Teóricos (STPA) y un Protocolo de Contexto de Modelo mejorado con capacidades para derivar especificaciones de seguridad formales para el uso de herramientas por parte de agentes de LLM, con una verificación basada en Alloy que demuestra la ausencia de flujos inseguros en un caso de estudio de programación de calendarios.
AGrail (ACL 2025) presenta una pasarela cooperativa de dos LLM que adapta las comprobaciones de seguridad en el momento de la inferencia mediante la adaptación en tiempo de prueba, logrando un 0% de éxito en ataques de inyección de prompts y un 95,6% de preservación de acciones benignas en Safe-OS — en comparación con GuardAgent y LLaMA-Guard que bloquean hasta el 49,2% de las acciones legítimas.
ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.
GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.