LLM 에이전트를 위한 검증 가능한 안전한 도구 사용: STPA와 MCP의 만남
GuardAgent, ShieldAgent, AGrail 등 가드레일 관련 문헌을 한동안 읽어왔는데, 이들은 모두 탐지율은 높이면서도 실제로는 아무것도 보장할 수 없다는 사실을 조용히 인정하고 있습니다. CMU와 NC State의 Doshi 등이 발표한 이 ICSE NIER 2026 논문은 다른 관점을 취합니다. 에이전트의 나쁜 행동을 더 안정적으로 탐지하는 방법을 묻는 대신, 안전하지 않은 행동을 형식적으로 불가능하게 만드는 방법을 묻습니다. 실증적인 연구라기보다는 포지션 페이퍼에 가깝지만, 프레임워크가 매우 날카로워 자세히 읽어볼 가치가 있습니다.
논문 요약
Aarya Doshi, Yining Hong, Congying Xu, Eunsuk Kang, Alexandros Kapravelos, Christian Kästner가 작성한 "LLM 에이전트를 위한 검증 가능한 안전한 도구 사용을 향하 여"(Towards Verifiably Safe Tool Use for LLM Agents, arXiv:2601.08012)는 LLM 에이전트 도구 사용에 대한 안전 사양을 도출하고 강제하기 위한 방법론을 제안합니다. 핵심 관찰은 에이전트 시스템의 위험이 주로 개별 도구의 실패가 아니라 *도구 조합(tool composition)*에서 발생한다는 것입니다. 따라서 구성 요소 수준의 보호 장치로는 이를 잡아낼 수 없습니다. 예를 들어, 캘린더 충돌을 해결하는 에이전트가 비공개 건강 기록을 정확하게 조회하고 이메일을 정확하게 보낼 수는 있지만, 그 과정에서 해당 기록의 내용을 환자의 동료에게 유출하는 것과 같은 재앙적인 상황을 초래할 수 있습니다.
제안된 솔루션은 두 부분으로 구성됩니다. 첫째, 저자들은 항공 및 원자력 시스템에서 사용되는 안전 공학 방법인 시스템 이론적 공정 분석(STPA)을 적용하여 에이전트 수준의 위험 요소를 식별하고, 안전 요구 사항을 도출하며, 이를 데이터 흐름 및 도구 시퀀스에 대한 사양으로 공식화합니다. 둘째, 각 도구가 구조화된 메타데이터(기능 계층: 읽기 전용, 쓰기 전용, 읽기-쓰기, 실행; 기밀성 분류; 신뢰 수준)를 선언해야 하는 기능 강화 모델 컨텍스트 프로토콜(MCP) 프레임워크를 도입합니다. 강제 집행은 증명 가능하게 안전하지 않은 흐름에 대한 자동 차단 목록(blocklist), 필수 시퀀스에 대한 필수 목록(mustlist), 사전 승인된 작업에 대한 허용 목록(allowlist), 모호한 경우에 대한 확인 에스컬레이션의 네 단계로 구성됩니다.
형식 검증 단계에서는 1차 관계 논리 도구인 Alloy를 사용하여 실행 공간을 모델링하고, 명시된 정책 하에서 안전 위반이 발생할 수 없는지, 그리고 안전한 경로는 여전히 도달 가능한지를 철저히 확인합니다. 이것이 이 논문의 주요 "결과"이며, NIER 단편 논문에서 기대할 수 있듯이 벤치마크 정확도 수치는 없습니다.
핵심 아이디어
- STPA는 에이전트 안전을 시스템 공학 문제로 재정의합니다. 즉, 강제 코드를 작성하기 전에 손실을 식별하고, 위험한 상호 작용을 역추적하며, 요구 사항을 도출합니다.
- 사양은 두 가지 종류로 나뉩니다. 정보 흐름 제약("이벤트 이메일에는 수신자에게 속하지 않은 개인 데이터가 포함되어서는 안 됨")과 시공간 논리 제약("모든
update_event뒤에는 각 참석자에게send_email이 뒤따라야 함")입니다. - 4단계 강제 집행(차단 목록 / 필수 목록 / 허용 목록 / 확인)은 보안 피로도를 줄이도록 설계되었습니다. 대부분의 안전한 흐름은 사전 승인되므로 에이전트가 끊임없이 권한을 요청하지 않습니다.
- Alloy의 철저한 경로 분석을 통해 캘린더 사례 연구에서 작업 기능을 유지하면서도 안전하지 않은 흐름이 없음을 확인했습니다.
- 전체 접근 방식은 범용 어시스턴트가 아닌 특정 작업용 에이전트로 명시적으로 범위를 좁혔습니다. 저자들은 좁은 범위의 에이전트가 보안을 확보하기에 더 실용적이라는 점을 인정합니다.
장점과 한계
지적인 흐 름은 타당합니다. 안전이 중요한 공학 분야에서 STPA를 차용한 것은 올바른 본능입니다. 확률적 가드레일과 달리 이 접근 방식은 요구 사항을 추정하는 대신 검증할 수 있는 시스템 경로에 대한 서술어로 변환합니다. 4단계 강제 계층 구조는 세심하게 설계되었습니다. 특히 차단 목록과 확인 사이의 구분은 중요한데, 영구적인 확인 프롬프트는 사용자의 신뢰를 떨어뜨리고 무시되기 때문입니다.
그럼에도 불구하고 논문의 한계는 상당하며 대부분 해결되지 않은 채 남아 있습니다. 메타데이터에 대한 신뢰 문제는 인정되지만 해결되지는 않았습니다. 전체 프레임워크는 도구 개발자가 도구에 정확하게 레이블을 지정하는 것에 의존합니다. 제3자 도구가 흔한 개방형 MCP 마켓플레이스에서는 레이블 정확성을 강제할 메커니즘이 없습니다. 형식 검증 또한 수작업으로 만든 Alloy 토이 모델에서 수행되었습니다. 이는 접근 방식의 타당성을 입증할 뿐, 실제 시스템에 대규모로 적용될 수 있음을 보여주는 것은 아닙니다.
또한 위협 모델링이나 HAZOP과 같은 다른 위험 분석 방법 대신 왜 STPA가 적절한지에 대한 설득력 있는 논거를 찾기 어렵습니다. 캘린더 사례 연구는 예시로서 훌륭하지만 지나치게 단순합니다. 그리고 관련 MCP 보안 문헌(arXiv:2601.17549)에서 상세히 조사한, 의도적으로 기능을 잘못 기재하는 악의적인 도구 제공자에 대한 논의도 부족합니다.
솔직히 말해, 이 논문은 개념 증명용 형식 모델을 갖춘 설계 제안서입니다. 정책 엔진 구축, 다양한 도구에 걸친 레이블 범위 테스트, 자율성과 안전 간의 트레이드오프 실증 측정과 같은 힘든 공학적 작업은 미래의 과제로 남겨두었습니다.
금융 AI에 중요한 이유
Beancount 라이트백(기록) 에이전트는 이 논문이 해결하고자 하는 정확한 위험 패턴에 직면해 있습니다. 즉, 도구 조합이 예기치 않은 위험을 초래하는 경우입니다. 민감한 계정 항목을 읽은 다음 공유 원장에 요약본을 게시하는 에이전트는 개별 단계에서는 완벽하게 합리적인 행동을 할 수 있지만, 시스템 수준에서만 보이는 기밀성 제약을 위반할 수 있습니다. 이해관계자의 손실에서 시작하여 이를 요구 사항으로 변환하는 STPA의 접근 방식은 손실이 규제 위반, 무단 공개, 되돌릴 수 없는 원장 변소인 금융 도메인에 깔끔하게 들어맞습니다.
Beancount 도구들이 점차 MCP 서버로 래핑되고 있기 때문에 MCP 확장은 직접적인 관련이 있습니다. 이러한 도구들이 구조화되고 기계가 읽을 수 있는 방식으로 기능 계층과 기밀 등급을 선언할 수 있다면, 에이전트가 스스로 감시하기를 바라는 대신 프로토콜 경계에서 데이터 흐름 정책을 강제할 수 있게 됩니다. 모든 post_transaction 전에 성공적인 balance_check가 선행되어야 한다는 시공간 논리 제약은 금융 에이전트가 쓰기 작업을 커밋하기 전에 보장해야 하는 바로 그 불변값입니다.
현재로서 부족한 점은 이 중 어느 것도 실제로 구축되어 테스트되지 않았다는 것입니다. 하지만 원장 에이전트의 안전을 생각하기 위한 설계 어휘로서 STPA + IFC(정보 흐름 제어)는 지금까지 이 분야에서 본 것 중 가장 원칙적인 프레임워크입니다.
다음 읽을거리
- "Securing AI Agents with Information-Flow Control" — arXiv:2505.23643, Microsoft Research. AgentDojo에서 평가된 오염 추적(taint tracking) 기능을 갖춘 구체적인 IFC 시스템(Fides)을 구현한 것으로, 이 논문의 실증적 보완재입니다.
- "Breaking the Protocol: Security Analysis of the Model Context Protocol Specification and Prompt Injection Vulnerabilities in Tool-Integrated LLM Agents" — arXiv:2601.17549. 이 논문의 프레임워크가 방어하고자 하는 MCP 공격 표면을 직접 분석합니다.
- "Systematic Hazard Analysis for Frontier AI using STPA" — arXiv:2506.01782. STPA 방법론을 AI 시스템 전반에 적용한 보다 최근의 연구로, 이 기술이 어떻게 확장되는지 이해하는 데 유용합니다.
