Salta al contingut principal

AGrail: Guardrails de seguretat adaptatius per a agents LLM que aprenen a través de tasques

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

He estat seguint de prop la cursa armamentística dels guardrails per a agents LLM — GuardAgent el 2024, ShieldAgent a l'ICML 2025 — i AGrail (Luo et al., ACL 2025) és el següent pas que necessitava llegir. S'orienta a la bretxa d'escalabilitat que cap predecessor va resoldre: què passa quan un sol sistema de guardrail ha de protegir els agents en moltes tasques diferents, cadascuna amb el seu propi vocabulari de polítiques i superfície de risc, sense estar programat prèviament per a cadascuna?

L'article

2026-05-29-agrail-lifelong-agent-guardrail-adaptive-safety-detection

Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen i Chaowei Xiao presenten AGrail — «A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection» — publicat a la secció d'articles llargs d'ACL 2025. El problema central és doble: els agents LLM s'enfronten a riscos específics de la tasca definits per l'administrador (p. ex., «no esborris fitxers d'aquest directori») i riscos sistèmics derivats de vulnerabilitats de disseny (injecció de prompts, atacs a l'entorn), i els guardrails existents gestionen com a màxim una d'aquestes categories bé i requereixen l'especificació manual de polítiques per tasca. La resposta d'AGrail és un sistema cooperatiu de dos LLM —un Analitzador i un Executor— que genera, prova i refina iterativament les comprovacions de seguretat en temps d'inferència mitjançant l'adaptació en temps de prova (TTA), emmagatzemant les comprovacions refinades en un mòdul de memòria que transfereix l'aprenentatge a tasques futures.

Idees clau

  • Cooperació de dos LLM: L'Analitzador recupera les comprovacions de seguretat rellevants de la memòria, les revisa i proposa conjunts de comprovacions actualitzats. L'Executor avalua cada comprovació proposada, decidint si invoca una eina externa, confia en el seu propi raonament o descarta una comprovació redundant. Aquest bucle s'executa iterativament fins que el conjunt de comprovacions convergeix.
  • Memòria amb step-back prompting: Les accions s'emmagatzemen tant en llenguatge natural com en representacions de comandes d'eines utilitzant step-back prompting. Durant la inferència, només es mostra la forma en llenguatge natural (per evitar interferències de la sintaxi de les comandes brutes), però ambdues s'utilitzen per a la recuperació. La memòria convergeix al voltant de la quarta iteració de TTA, amb una similitud del cosinus superior al 98% entre diferents llavors aleatòries.
  • Benchmark Safe-OS: Els autors introdueixen un nou conjunt de dades de 100 escenaris que simulen interaccions reals d'agents de sistema operatiu mitjançant Docker —23 d'injecció de prompts, 30 de sabotatge del sistema, 20 d'atacs a l'entorn i 27 casos normals— perquè cap benchmark existent combinava els tres tipus de risc sistèmic.
  • 96% de preservació benigna amb un 0% d'ASR en injecció de prompts: A Safe-OS amb Claude-3.5-Sonnet, AGrail només bloqueja el 4,4% de les accions benignes (95,6% de preservació) mentre aconsegueix una taxa d'èxit d'atac (ASR) del 0% contra la injecció de prompts. Les línies de base de la competència bloquegen fins al 49,2% de les accions benignes.
  • Resultats de riscos específics de la tasca: A Mind2Web-SC (agent web), AGrail aconsegueix un F1=94,1 amb un 95,8% d'acord. A EICU-AC (privadesa sanitària), F1=98,5 amb un 100% d'acord.
  • Inestabilitat de models febles: GPT-4o-mini com a eix central mostra inestabilitat entre seqüències d'entrada; es requereix Claude-3.5-Sonnet per a un rendiment fiable, la qual cosa és un requisit previ de computació implícit que l'article minimitza.

Què se sosté — i què no

El resultat que més m'impressiona és la comparació de falsos positius: GuardAgent i LLaMA-Guard bloquegen fins al 49,2% de les accions legítimes de Safe-OS. Això és una catàstrofe d'usabilitat — un guardrail que marca la meitat del treball normal és un guardrail que ningú deixarà activat. La taxa de bloqueig del 4,4% d'AGrail en accions benignes és realment millor.

Dit això, val la pena anomenar algunes llacunes. En primer lloc, les xifres de l'atac d'injecció ambiental (EIA) són més dures que les afirmacions principals: l'ASR de generació d'accions és del 28% — més d'un de cada quatre atacs passa. L'article amaga això en comparació amb el resultat del 0% d'injecció de prompts. En segon lloc, el model d'amenaça és estret: Safe-OS cobreix tres tipus d'atacs, però l'article no avalua cadenes de raonament adversari que eludeixen completament l'Analitzador, o casos on un context prou llarg empeny el mòdul de memòria cap a comprovacions prèvies incorrectes. En tercer lloc, la història de l'aprenentatge permanent requereix que l'agent trobi accions similars repetidament perquè la memòria convergeixi — el resultat de convergència a la quarta iteració es manté en la configuració controlada de l'article, però no és obvi amb quina rapidesa s'estabilitza la memòria quan les distribucions d'accions són molt variades. En quart lloc, mai es quantifica la sobrecàrrega computacional de fer córrer dos LLM més les iteracions de TTA per cada pas de l'agent. En aplicacions sensibles a la latència, aquest cost és important.

Els autors reconeixen honestament que depenen de LLM generals en lloc de models de guardrail especialitzats, i que la invocació d'eines és mínima. El que no discuteixen és com les propostes de comprovació de polítiques de l'Analitzador podrien ser enverinades per un adversari que entengui el flux de treball de step-back prompting.

Per què això és important per a la IA financera

La taxonomia de risc específic de la tasca + risc sistèmic es mapeja directament als agents de comptabilitat. Un agent d'escriptura de Beancount s'enfronta a riscos específics de la tasca (regles de l'administrador: «mai publiquis en un període tancat», «requereix sempre l'aprovació de dues parts per a transaccions superiors a 10.000 $») juntament amb riscos sistèmics (una nota maliciosa en una memòria de transacció que injecta instruccions). L'enfocament d'AGrail és més natural per a aquest cas d'ús que els circuits de regles formals de ShieldAgent, perquè els comptables articulen les polítiques en llenguatge senzill, no en lògica de primer ordre.

L'angle de l'aprenentatge permanent és especialment rellevant. Un sol desplegament podria protegir dotzenes de llibres majors diferents — cadascun amb diferents polítiques de pla de comptes, diferents límits d'exercici fiscal i diferents jerarquies d'aprovació. La capacitat de transferir comprovacions de seguretat d'un llibre major a un altre, refinant-les mitjançant TTA en lloc de començar de zero, podria reduir significativament la càrrega de configuració per llibre major. Si la implementació actual realment aconsegueix això a l'escala d'una plataforma de comptabilitat multi-inquilí real és una pregunta que l'article no respon — les seves avaluacions cobreixen tres tasques d'agents diferents, no dotzenes.

La taxa de fracàs del 28% en la generació d'accions EIA és la xifra a la qual no deixo de donar voltes. Per a un agent comptable, un atac amb èxit en la generació d'accions adversàries significa que es registra un assentament comptable incorrecte. Això no és recuperable sense una auditoria manual. Un guardrail que falla en el 28% dels atacs EIA requeriria una capa de verificació secundària — la qual cosa ens porta de tornada al debat multi-agent i als dissenys de verificació formal d'anteriors lectures d'aquesta llista.

Què llegir a continuació

  • M3MAD-Bench (arXiv:2601.02854) — l'auditoria més completa sobre si el debat multi-agent realment ajuda en diverses modalitats i tasques; directament rellevant si el disseny cooperatiu de LLM d'AGrail es considera per a fluxos de treball financers.
  • ShieldAgent (arXiv:2503.22738, ICML 2025) — l'enfocament de verificació formal amb el qual AGrail es compara implícitament; llegir ambdós conjuntament aclareix el compromís entre adaptabilitat i garanties formals.
  • Cap a un ús d'eines verificablement segur per a agents LLM (arXiv:2601.08012, ICSE 2026) — combina l'anàlisi de processos STPA amb MCP per produir especificacions de seguretat aplicables per a agents que invoquen eines, el complement sistemàtic més gran existent per a la comprovació en temps d'execució d'AGrail.