본문으로 건너뛰기

AGrail: 작업 전반에 걸쳐 학습하는 LLM 에이전트를 위한 적응형 안전 가드레일

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

저는 LLM 에이전트를 위한 가드레일 군비 경쟁(2024년 GuardAgent, ICML 2025의 ShieldAgent 등)을 면밀히 지켜봐 왔습니다. AGrail (Luo et al., ACL 2025)은 제가 꼭 읽어야 했던 다음 단계의 논문입니다. 이 논문은 이전 시스템들이 해결하지 못한 확장성 격차를 목표로 합니다. 즉, 단일 가드레일 시스템이 각각 고유한 정책 어휘와 위험 표면을 가진 수많은 다양한 작업에서 에이전트를 보호해야 할 때, 각 작업에 대해 미리 프로그래밍되지 않은 상태에서 어떻게 대응할 것인가 하는 문제입니다.

논문 요약

2026-05-29-agrail-lifelong-agent-guardrail-adaptive-safety-detection

Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen, Chaowei Xiao는 ACL 2025의 롱 페이퍼 트랙에 발표된 "AGrail: 효과적이고 적응형 안전 탐지를 갖춘 생애 주기 에이전트 가드레일(A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection)"을 제시합니다. 핵심 문제는 이중적입니다. LLM 에이전트는 관리자가 정의한 작업별 위험(예: "이 디렉터리의 파일을 삭제하지 마십시오")과 설계 취약성에서 비롯된 시스템적 위험(프롬프트 인젝션, 환경 공격)에 동시에 직면합니다. 기존 가드레일은 이러한 범주 중 기껏해야 하나만 잘 처리하며 작업마다 수동 정책 지정이 필요합니다. AGrail의 해답은 분석기(Analyzer)와 실행기(Executor)로 구성된 협력형 두 LLM 시스템입니다. 이 시스템은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 생성, 테스트 및 반복적으로 개선하고, 개선된 점검 내용을 메모리 모듈에 저장하여 향후 작업으로 학습 내용을 전달합니다.

핵심 아이디어

  • 두 LLM의 협력: 분석기는 메모리에서 관련 안전 점검을 검색하고 수정하며 업데이트된 점검 세트를 제안합니다. 실행기는 제안된 각 점검을 평가하여 외부 도구를 호출할지, 자체 추론에 의존할지 또는 중복된 점검을 폐기할지 결정합니다. 이 루프는 점검 세트가 수렴될 때까지 반복적으로 실행됩니다.
  • 스텝백 프롬프팅을 활용한 메모리: 작업은 스텝백 프롬프팅(step-back prompting)을 사용하여 자연어와 도구 명령 표현 모두로 저장됩니다. 추론 중에는 원시 명령 구문의 간섭을 방지하기 위해 자연어 형태만 표시되지만, 검색 시에는 두 형태 모두 사용됩니다. 메모리는 약 4회의 TTA 반복 후에 수렴하며, 무작위 시드 전반에 걸쳐 98% 이상의 코사인 유사도를 보입니다.
  • Safe-OS 벤치마크: 저자들은 Docker를 통해 실제 OS 에이전트 상호작용을 시뮬레이션하는 100가지 시나리오의 새로운 데이터셋을 도입했습니다. 여기에는 프롬프트 인젝션 23건, 시스템 파괴 30건, 환경 공격 20건, 정상 사례 27건이 포함되어 있습니다. 기존의 벤치마크 중 세 가지 시스템적 위험 유형을 모두 결합한 것이 없었기 때문입니다.
  • 0% 프롬프트 인젝션 ASR에서 96%의 정상 작업 보존: Claude-3.5-Sonnet을 사용한 Safe-OS 테스트에서, AGrail은 프롬프트 인젝션에 대해 0%의 공격 성공률(ASR)을 달성하는 동시에 정상 작업의 4.4%만 차단(95.6% 보존)했습니다. 경쟁 베이스라인들은 정상 작업의 최대 49.2%를 차단했습니다.
  • 작업별 위험 결과: Mind2Web-SC(웹 에이전트)에서 AGrail은 F1=94.1과 95.8%의 일치도를 달성했습니다. EICU-AC(의료 프라이버시)에서는 F1=98.5와 100%의 일치도를 보였습니다.
  • 약한 모델의 불안정성: GPT-4o-mini를 백본으로 사용하면 입력 시퀀스에 따라 불안정함을 보입니다. 신뢰할 수 있는 성능을 위해서는 Claude-3.5-Sonnet이 필요하며, 이는 논문에서 명시적으로 강조되지 않았지만 암시적인 컴퓨팅 전제 조건입니다.

강점과 한계

저에게 가장 인상 깊었던 결과는 오탐(false-positive) 비교입니다. GuardAgent와 LLaMA-Guard는 정상적인 Safe-OS 작업의 최대 49.2%를 차단합니다. 이는 사용성 측면에서 재앙에 가깝습니다. 정상적인 작업의 절반을 위험으로 분류하는 가드레일은 아무도 활성화해 두지 않을 것입니다. 정상 작업에 대한 AGrail의 4.4% 차단율은 진정으로 뛰어난 성과입니다.

그럼에도 불구하고 몇 가지 격차를 언급할 가치가 있습니다. 첫째, 환경 주입 공격(EIA) 수치는 주요 홍보 문구보다 훨씬 낮습니다. 작업 생성 ASR이 28%로, 네 번의 공격 중 한 번 이상이 통과됩니다. 논문은 0% 프롬프트 인젝션 결과에 비해 이를 다소 묻어두는 경향이 있습니다. 둘째, 위협 모델이 좁습니다. Safe-OS는 세 가지 공격 유형을 다루지만, 논문은 분석기를 완전히 우회하는 적대적 추론 체인이나 충분히 긴 컨텍스트가 메모리 모듈을 잘못된 이전 점검으로 유도하는 사례를 평가하지 않습니다. 셋째, 생애 주기 학습(lifelong learning) 시나리오는 메모리가 수렴하기 위해 에이전트가 유사한 작업을 반복적으로 마주해야 함을 요구합니다. 반복 4회 만에 수렴한다는 결과는 논문의 통제된 설정에서는 유효하지만, 작업 분포가 매우 다양할 때 메모리가 얼마나 빨리 안정화될지는 명확하지 않습니다. 넷째, 에이전트 단계당 두 개의 LLM과 TTA 반복을 실행하는 데 따른 컴퓨팅 오버헤드는 수치화되지 않았습니다. 지연 시간에 민감한 애플리케이션에서는 그 비용이 매우 중요합니다.

저자들은 전문 가드레일 모델보다는 일반 LLM에 의존하며 도구 호출이 최소화된다는 점을 솔직하게 인정합니다. 하지만 그들이 논의하지 않는 것은 스텝백 프롬프팅 파이프라인을 이해하는 공격자에 의해 분석기의 정책 점검 제안 자체가 오염될 수 있다는 가능성입니다.

금융 AI에서의 중요성

작업별 위험과 시스템적 위험의 분류는 회계 에이전트에 직접적으로 적용됩니다. Beancount 쓰기 에이전트는 작업별 위험(관리자 규칙: "잠긴 회계 기간에는 기입 금지", "10,000달러 이상의 거래에는 항상 양측 승인 필요")과 시스템적 위험(지침을 주입하는 거래 메모의 악성 메모)에 동시에 직면합니다. AGrail의 프레임워크는 ShieldAgent의 공식적인 규칙 회로보다 이 사용 사례에 더 자연스럽습니다. 회계사는 정책을 1차 논리가 아닌 일상적인 언어로 표현하기 때문입니다.

생애 주기 학습 측면은 특히 관련성이 높습니다. 단일 배포로 수십 개의 별개 장부(ledger)를 보호할 수 있으며, 각 장부는 서로 다른 계정 과목(chart-of-accounts) 정책, 회계 연도 경계, 승인 계층 구조를 가질 수 있습니다. 처음부터 시작하는 대신 TTA를 통해 안전 점검을 개선하며 한 장부에서 다른 장부로 전달하는 기능은 장부별 구성 부담을 의미 있게 줄여줄 수 있습니다. 현재의 구현이 실제 멀티 테넌트 회계 플랫폼 규모에서 이를 실제로 달성하는지는 논문이 답하지 않는 질문입니다. (논문의 평가는 수십 개가 아닌 세 개의 개별 에이전트 작업만 다룹니다.)

제가 계속 주목하게 되는 수치는 28%의 EIA 작업 생성 실패율입니다. 회계 에이전트에게 성공적인 적대적 작업 생성 공격은 잘못된 전표(journal entry)가 기입됨을 의미합니다. 이는 수동 감사가 없이는 복구할 수 없습니다. EIA 공격의 28%를 막지 못하는 가드레일은 2차 검증 계층이 추가로 필요하며, 이는 다시 이 읽기 목록의 이전 항목들에서 다룬 다중 에이전트 토론 및 정형 검증 설계로 논의를 되돌립니다.

다음 추천 읽을거리

  • M3MAD-Bench (arXiv:2601.02854) — 다중 에이전트 토론이 다양한 양식과 작업에서 실제로 도움이 되는지에 대한 가장 포괄적인 감사 결과입니다. AGrail의 협력형 LLM 설계가 금융 파이프라인에 고려될 때 직접적으로 관련이 있습니다.
  • ShieldAgent (arXiv:2503.22738, ICML 2025) — AGrail이 암시적으로 비교되는 정형 검증 접근 방식입니다. 두 논문을 나란히 읽으면 적응성과 정형 보증 사이의 절충점을 명확히 파악할 수 있습니다.
  • LLM 에이전트를 위한 검증 가능한 안전한 도구 사용을 향하여 (Towards Verifiably Safe Tool Use for LLM Agents, arXiv:2601.08012, ICSE 2026) — STPA 프로세스 분석과 MCP를 결합하여 도구 호출 에이전트를 위한 집행 가능한 안전 사양을 생성하며, AGrail의 런타임 점검에 대한 가장 체계적인 보완책을 제시합니다.