LLM 에이전트를 위한 검증 가능한 안전한 도구 사용: STPA와 MCP의 만남
CMU 및 NC State 연구진은 시스템 이론적 공정 분석(STPA)과 기능이 강화된 모델 컨텍스트 프로토콜을 사용하여 LLM 에이전트 도구 사용에 대한 형식적 안전 사양을 도출할 것을 제안하며, 캘린더 일정 관리 사례 연구를 통해 안전하지 않은 흐름이 없음을 입증하는 Alloy 기반 검증을 선보입니다.
CMU 및 NC State 연구진은 시스템 이론적 공정 분석(STPA)과 기능이 강화된 모델 컨텍스트 프로토콜을 사용하여 LLM 에이전트 도구 사용에 대한 형식적 안전 사양을 도출할 것을 제안하며, 캘린더 일정 관리 사례 연구를 통해 안전하지 않은 흐름이 없음을 입증하는 Alloy 기반 검증을 선보입니다.
AGrail (ACL 2025)은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 조정하는 두 개의 LLM 협력 가드레일을 도입하여, Safe-OS에서 프롬프트 인젝션 공격 성공률 0%와 정상 작업 보존율 95.6%를 달성했습니다. 이는 GuardAgent 및 LLaMA-Guard가 정상 작업의 최대 49.2%를 차단하는 것과 대조적입니다.
ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.
GuardAgent(ICML 2025)는 대상 에이전트와 환경 사이에 별도의 LLM 에이전트를 배치하여, Python 코드를 생성하고 실행함으로써 제안된 모든 동작을 검증합니다. 이를 통해 프롬프트 내장형 안전 규칙이 81%의 정확도와 29~71%의 작업 실패율을 보이는 것과 대조적으로, 100%의 작업 완료율을 유지하면서 98.7%의 정책 준수 정확도를 달성합니다.