ShieldAgent: LLM 에이전트를 위한 검증 가능한 안전 정책 추론
지난주 안전 정책을 실행 가능한 코드로 변환하는 GuardAgent를 다룬 데 이어, 이를 명시적으로 능가한다고 주장하는 논문인 ShieldAgent (Chen, Kang, and Li, ICML 2025, arXiv:2503.22738)를 읽어보았습니다. GuardAgent가 프롬프트 기반 가드레일에 비해 보여준 개선은 이미 상당했습니다. ShieldAgent의 확률적 규칙 회로가 실제로 남은 격차를 메우는지, 아니면 단순히 기준점을 옮긴 것인지 확인하는 것은 Beancount 에이전트의 라이트백(write-back) 안전성을 어떻게 설계할지 결정하기 전에 면밀히 검토할 가치가 있었습니다.
논문 소개
ShieldAgent는 LLM 안전성이 아닌 에이전트 안전성을 위해 특별히 설계된 최초의 가드레일 에이전트라고 자처하며, 이는 의미 있는 구분입니다. LLM 가드레일은 입력과 출력을 격리하여 필 터링하지만, 에이전트 가드레일은 단일 단계로는 무해해 보이는 조치가 해로운 시퀀스의 일부가 될 수 있는 동적인 환경에서 다단계 행동 궤적에 대해 추론해야 합니다. 이 논문의 핵심 주장은 GuardAgent를 포함한 기존 접근 방식이 여전히 비용이 많이 들고 일관성이 없으며 검증 불가능한 원시 LLM 추론에 너무 의존한다는 것입니다.
주요 기술적 기여는 **행동 기반 확률적 규칙 회로(action-based probabilistic rule circuit)**입니다. 정책 문서는 검증 가능한 규칙으로 파싱되고, 각 규칙은 소프트 가중치(마르코프 논리 네트워크 퍼텐셜로 구현)를 할당받으며, 규칙들은 스펙트럼 클러스터링을 통해 행동별 회로로 클러스터링됩니다. 추론 시점에 ShieldAgent는 각 에이전트 행동과 관련된 회로를 검색하고, 네 가지 형식 연산(Search, Binary-Check, Detect, Stormpy 모델 체커를 사용한 Formal Verify)을 실행하여 확률적 안전 레이블을 계산합니다. 최종 결정에는 상대적 안전 조건(safe와 unsafe 확률 질량의 차이가 임계값 ε을 초과해야 함)을 사용하여 절대적 확률 임계값에 비해 오탐(false positive)을 줄입니다.
핵심 아이디어
- 마르코프 논리 네트워크 기반의 확률적 규칙 회로: 소프트 규칙 가중치는 GuardAgent와 같은 엄격한 코드 생성 방식이 처리하지 못하는 모호하거나 불완전한 정책을 유연하게 처리합니다.
- 일급 연산으로서의 형식 검증: Stormpy 모델 체킹은 사후 추가 기능이 아니라 4가지 쉴딩 연산 중 하나로 포함 됩니다. 이것이 제목에 언급된 "검증 가능한(verifiable)"의 실제 의미입니다.
- ShieldAgent-Bench에서 에이전트 기반 공격에 대해 90.4%, 환경 기반 공격에 대해 91.7%의 정확도 달성: 오탐률은 4.8%로, 평가된 모든 베이스라인 중 가장 낮았습니다.
- 기존 3개 벤치마크에서 GuardAgent 대비 평균 7.4% 개선: ST-WebAgentBench (91.1% vs 84.0%), VWA-Adv (94.1% vs 89.9%), AgentHarm (86.9% vs 78.4%).
- 기존 최상위 방법론 대비 API 쿼리 64.7% 감소 및 추론 속도 58.2% 향상: 규칙 회로를 통해 전체 궤적을 매 단계 LLM에 전달하는 대신 타겟팅된 검색이 가능하기 때문입니다.
- 실시간 컴플라이언스 향상: 실시간 모니터로 배포했을 때, Shopping 환경 컴플라이언스는 46.8%에서 65.3%로, GitLab은 22.8%에서 50.7%로 급증했습니다.
- ShieldAgent-Bench: 6개 웹 환경과 7개 위험 범주에 걸친 3,110개의 샘플과 1,080개의 검증된 안전 규칙을 포함하며, 이는 방법론과는 별개로 그 자체로 매우 유용한 자산입니다.
유효한 점과 한계점
핵심 아이디어는 타당합니다. 원시 LLM 판단을 구조화된 확률 회로로 대체하면 가드레일이 더 저렴하고 빨라지며 감사 가능성이 높아집니다. 효율성 향상(API 호출 64.7% 감소)은 단순히 있으면 좋은 수준이 아닙니다. 가드레일 호출마다 주 에이전트의 지연 시간이 추가되는 프로덕션 환경에서는 매우 중요합니다.
벤치마크 설계도 훌륭합니다. ShieldAgent-Bench는 합성 안전 데이터셋보다 훨씬 신뢰할 수 있는 실제 웹 환경의 실제 적대적 공격 알고리즘(AgentPoison, AdvWeb)을 사용하여 구축되었습니다.
하지만 몇 가지 우려되는 점도 있습니다. 첫째, 시스템이 정책 추출, 규칙 정교화 및 계획을 위해 GPT-4o에 의존하며, 이는 정책 구축 단계에서 GPT-4o의 비용과 지연 시간을 그대로 상속받음을 의미합니다. 저자들은 "초기 정책 모델 구축 시 인간 전문가의 검토를 권장한다"고 명시했는데, 이는 자동 추출이 감독 없이 배포할 만큼 신뢰할 수 없음을 간접적으로 인정한 것입니다. 둘째, 정책 문서 이상의 사실적 지식이 필요한 환각 관련 리스크에서는 성능이 약하다는 점을 인정했습니다. 쓰기 작업이 정책상으로는 준수하는 것처럼 보이지만 산술적으로 틀리거나 존재하지 않는 계정을 참조할 수 있는 회계 에이전트의 경우, 이는 실질적인 공백입니다. 셋째, 벤치마크가 모두 웹 에이전트 환경(쇼핑, GitLab, Reddit)입니다. 금융이나 회계 작업에 대한 평가는 없습니다. 높은 수치들이 더 엄격한 산술적 정확성을 요구하고 오탐에 대한 관용도가 낮은 도메인으로 그대로 이어지지 않을 수 있습니다.
또한 초록에서 인용된 "이전 방법 대비 11.3% 개선" 수치와 본문에서 기존 벤치마크에 대해 인용된 "7.4% 개선" 수치가 다르다는 점에 주목했습니다. 더 큰 숫자는 아마도 저자들이 벤치마크와 방법론을 모두 통제한 ShieldAgent-Bench를 포함한 것으로 보이며, 이는 일반적인 평가상의 혼란 변수입니다.
금융 AI에서 이것이 중요한 이유
Beancount 라이트백 안전성 문제는 ShieldAgent가 다루는 문제와 구조적으로 유사합니다. 주 에이전트가 원장 수정을 제안하면 가드레일은 해당 수정이 반영되기 전에 정책에 따라 이를 검증해야 합니다. 규칙 회로 아이디어는 Beancount 정책 규칙(차대 불일치 금지, 계정 존재 여부, 금액 양수 확인, 사용자 승인 등)과 완벽하게 매칭됩니다. 이러한 규칙들은 LLM의 자유 형식 추론보다는 형식적 표현을 통해 얻는 이득이 큰 구조화된 제약 조건들입니다.
효율성 향상은 웹 에이전트보다 회계 분야에서 더 중요할 수 있습니다. 원장 라이트백 에이전트는 단일 세션에서 수십 개의 분개 항목을 제안할 수 있습니다. API 호출을 64.7% 줄여주는 가드레일은 실시간 검증을 가능하게 할 것입니다. 그러나 환각 문제는 여전히 해결해야 할 과제입니다. ShieldAgent는 정책은 준수하지만 사실관계가 틀린(잘못된 금액, 잘못 분류된 계정) 쓰기 작업을 잡아낼 수 없습니다. Beancount의 경우, 이러한 실패 모드가 아마도 가장 흔하고 비용이 많이 드는 문제입니다. 정책 준수를 위한 ShieldAgent와 수치 정확성을 위한 별도의 산술 검증기를 결합한 하이브리드 가드레일이 적절한 아키텍처로 보입니다.
함께 읽어볼 만한 글
- AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection (Luo et al., ACL 2025, arXiv:2502.11448) — 보완적인 접근 방식을 취합니다. 고정된 정책 모델을 미리 추출하는 대신 태스크 전반에 걸쳐 학습하는 적응형 안전 점검 생성을 사용합니다. ShieldAgent와 비교하여 정책 고정형과 정책 적응형 간의 트레이드오프를 이해해 보세요.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012, ICSE 2026) — 시스템 이론적 프로세스 분석(STPA)을 사용하여 도구 호출 에이전트에 대한 형식적 안전 보장을 생성하며, 가능한 경우 확률적 검증에서 결정론적 검증으로 전환합니다.
- ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents (arXiv:2410.06703) — ShieldAgent 평가에 사용된 세 가지 기존 벤치마크 중 가장 엄격합니다. 금융 에이전트 평가를 위해 이를 변형하기 전에 태스크 설계와 지표 정의를 이해할 가치가 있습니다.
