跳到主要内容

ShieldAgent:LLM 智能体的可验证安全策略推理

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

在上周介绍了 GuardAgent(它将安全策略转换为可执行代码)之后,我想读一读这篇明确宣称超越它的论文:ShieldAgent (Chen, Kang, and Li, ICML 2025, arXiv:2503.22738)。GuardAgent 相比于基于提示(prompt)的护栏已经有了显著改进;在决定如何构建 Beancount 智能体的回写安全架构之前,ShieldAgent 的概率规则电路是否真的填补了剩余的差距,还是仅仅改变了评判标准,似乎值得仔细研究。

论文介绍

2026-05-28-shieldagent-verifiable-safety-policy-reasoning-llm-agents

ShieldAgent 将自己定位为第一个专门为智能体安全而非 LLM 安全设计的护栏智能体——这是一个有意义的区别。LLM 护栏孤立地筛选输入和输出;而智能体护栏必须在动态环境中对多步动作轨迹进行推理,在这些环境中,单个看起来无害的步骤可能是有害序列的一部分。该论文的核心论点是,包括 GuardAgent 在内的现有方法仍然过于依赖原始的 LLM 推理,这种方式成本高昂、不一致且不可验证。

其核心技术贡献是基于动作的概率规则电路:策略文档被解析为可验证的规则,每条规则都被赋予一个软权重(通过马尔可夫逻辑网络势能实现),并且规则通过谱聚类被分组到特定动作的电路中。在推理时,ShieldAgent 为每个智能体动作检索相关的电路,执行四种形式化操作(搜索 Search、二进制检查 Binary-Check、检测 Detect 和使用 Stormpy 模型检查器进行形式化验证 Formal Verify),并计算概率安全标签。最终决策使用相对安全条件——安全和不安全概率质量之间的差距必须超过阈值 ε——与绝对概率阈值相比,这减少了误报。

核心观点

  • 马尔可夫逻辑网络上的概率规则电路:软规则权重可以优雅地处理冲突或不完整的策略,而当策略模糊时,像 GuardAgent 这样死板的代码生成方法无法做到这一点。
  • 形式化验证作为一等公民操作:Stormpy 模型检查是四种屏蔽操作之一,而不是事后添加的。这就是标题中“可验证”的真正含义。
  • 在智能体攻击中达到 90.4% 的准确率,在环境攻击中达到 91.7%(基于 ShieldAgent-Bench),误报率为 4.8%——在所有评估的基准线中是最低的。
  • 在现有基准上比 GuardAgent 平均提高 7.4%:ST-WebAgentBench (91.1% vs. 84.0%),VWA-Adv (94.1% vs. 89.9%),AgentHarm (86.9% vs. 78.4%)。
  • API 查询减少了 64.7%,推理速度提高了 58.2%:与之前最好的方法相比,性能提升显著,因为规则电路允许定向检索,而不是在每一步都将整个轨迹传递给 LLM。
  • 在线合规性提升显著:当作为实时监控部署时,购物(Shopping)环境的合规性从 46.8% 跃升至 65.3%,GitLab 从 22.8% 提升至 50.7%。
  • ShieldAgent-Bench:包含跨 6 个网络环境和 7 个风险类别的 3,110 个样本,带有 1,080 条经过验证的安全规则——这是一个真正有用的产物,独立于该方法本身。

哪些观点站得住脚,哪些站不住

核心理念是合理的:用结构化的概率电路取代原始的 LLM 判断,使护栏更便宜、更快速、更具可审计性。效率提升(减少 64.7% 的 API 调用)不仅仅是锦上添花——在生产环境中,每一次护栏调用都会增加主智能体的延迟,这一点至关重要。

基准测试设计也值得称赞。ShieldAgent-Bench 是在真实的 Web 环境中使用真实的对抗性攻击算法(AgentPoison, AdvWeb)构建的,这比合成的安全数据集更具说服力。

但有几点让我犹豫。首先,该系统依赖 GPT-4o 进行策略提取、规则细化和规划——这意味着它在策略构建阶段继承了 GPT-4o 的成本和延迟。作者指出“建议在初始策略模型构建期间进行人工专家审查”,这含蓄地承认了自动化提取不够可靠,无法在无人监督的情况下部署。其次,论文承认在需要策略文档之外的事实知识的幻觉相关风险方面表现较弱。对于会计智能体来说,一笔回写可能看起来符合策略,但算术错误或引用了不存在的账户,这是一个真正的差距。第三,基准测试全是 Web 智能体环境(购物、GitLab、Reddit)。没有针对金融或会计任务的评估。这些令人印象深刻的数字可能无法转移到一个算术正确性要求更严、对漏报容忍度更低的领域。

我还注意到,“比之前的方法提高 11.3%”(在摘要中引用)和“提高 7.4%”(在正文中针对现有基准引用)这两个数字是不同的。较大的数字可能包含了 ShieldAgent-Bench 本身,而在那里作者同时控制着基准和方法——这是评估中常见的混淆因素。

为什么这对金融 AI 很重要

Beancount 的回写安全问题在结构上与 ShieldAgent 解决的问题相似:主智能体提议账本变更,而护栏必须在提交之前根据策略验证这些变更。规则电路的想法可以很好地映射——Beancount 策略规则(无借贷不平衡、账户必须存在、金额必须为正、交易必须由用户授权)正是那种受益于形式化表示而非 LLM 自由格式推理的可验证、结构化约束。

效率提升对于会计比对于 Web 智能体更重要。账本回写智能体可能会在单个会话中提议数十个日记账分录;将 API 调用削减 64.7% 的护栏可以使实时验证变得可行。然而,幻觉差距是主要的悬而未决的问题:ShieldAgent 无法捕捉到符合策略但在事实上有误的写入(错误的金额、分类错误的账户)。对于 Beancount 来说,这种失败模式可以说是最常见且代价最高的。一种混合护栏——ShieldAgent 负责策略合规性,独立的算术验证器负责数值正确性——似乎是正确的架构。

延伸阅读

  • AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection (Luo et al., ACL 2025, arXiv:2502.11448) —— 采用了一种补充方法:自适应安全检查生成,可在任务之间学习,而不是预先提取固定的策略模型。将其与 ShieldAgent 进行比较,以了解固定策略与自适应策略之间的权衡。
  • Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012, ICSE 2026) —— 使用系统理论过程分析 (STPA) 为工具调用智能体提供形式化安全保证,尽可能从概率验证转向确定性验证。
  • ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents (arXiv:2410.06703) —— 用于评估 ShieldAgent 的三个现有基准中最严谨的一个;在将其调整为金融智能体评估之前,值得了解其任务设计和指标定义。