Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоре тичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.
AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.
ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.
GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.