Doorgaan naar hoofdinhoud

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Ik volg de wapenwedloop op het gebied van waarborgen (guardrails) voor LLM-agenten op de voet — GuardAgent in 2024, ShieldAgent op ICML 2025 — en AGrail (Luo et al., ACL 2025) is de volgende stap die ik moest lezen. Het richt zich op de schaalbaarheidskloof die geen van de voorgangers heeft opgelost: wat gebeurt er wanneer een enkel waarborgsysteem agenten moet beschermen over veel verschillende taken, elk met zijn eigen beleidsvocabulaire en risico-oppervlak, zonder vooraf voor elke taak te zijn geprogrammeerd?

Het artikel

2026-05-29-agrail-lifelong-agent-guardrail-adaptive-safety-detection

Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen en Chaowei Xiao presenteren AGrail — "A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection" — gepubliceerd in het long-paper track van ACL 2025. Het kernprobleem is tweeledig: LLM-agenten worden geconfronteerd met taakspecifieke risico's die door de beheerder zijn gedefinieerd (bijv. "verwijder geen bestanden in deze directory") en systemische risico's voortvloeiend uit ontwerpvaccuïteiten (prompt-injectie, omgevingsaanvallen), en bestaande waarborgen behandelen hooguit een van deze categorieën goed en vereisen handmatige beleidsspecificatie per taak. Het antwoord van AGrail is een coöperatief systeem met twee LLM's — een Analyzer en een Executor — dat veiligheidscontroles genereert, test en iteratief verfijnt tijdens de inferentiefase via test-time adaptatie (TTA), en de verfijnde controles opslaat in een geheugenmodule die het geleerde overdraagt naar toekomstige taken.

Belangrijkste ideeën

  • Coöperatie tussen twee LLM's: De Analyzer haalt relevante veiligheidscontroles uit het geheugen op, herziet ze en stelt bijgewerkte controlesets voor. De Executor evalueert elke voorgestelde controle — waarbij wordt besloten of een externe tool moet worden aangeroepen, moet worden vertrouwd op eigen redenering, of dat een redundante controle moet worden verwijderd. Deze lus loopt iteratief totdat de controleset convergeert.
  • Geheugen met step-back prompting: Acties worden opgeslagen in zowel natuurlijke taal als tool-commando representaties met behulp van step-back prompting. Tijdens de inferentie wordt alleen de vorm in natuurlijke taal getoond (om interferentie door ruwe commando-syntaxis te voorkomen), maar beide worden gebruikt voor het ophalen. Het geheugen convergeert rond de vierde TTA-iteratie, met een cosinus-gelijkenis van meer dan 98% over verschillende random seeds.
  • Safe-OS benchmark: De auteurs introduceren een nieuwe dataset van 100 scenario's die echte OS-agent interacties simuleren via Docker — 23 prompt-injecties, 30 systeem-sabotages, 20 omgevingsaanvallen en 27 normale gevallen — omdat geen enkele bestaande benchmark alle drie de systemische risicotypen combineerde.
  • 96% behoud van legitieme acties bij 0% prompt-injectie ASR: Op Safe-OS met Claude-3.5-Sonnet blokkeert AGrail slechts 4,4% van de legitieme acties (95,6% behoud), terwijl het een aanvalssuccespercentage (ASR) van 0% behaalt tegen prompt-injectie. Concurrerende baselines blokkeren tot 49,2% van de legitieme acties.
  • Resultaten voor taakspecifieke risico's: Op Mind2Web-SC (webagent) behaalt AGrail een F1-score van 94,1 met 95,8% overeenstemming. Op EICU-AC (privacy in de gezondheidszorg) is de F1-score 98,5 met 100% overeenstemming.
  • Instabiliteit bij zwakkere modellen: GPT-4o-mini als basismodel vertoont instabiliteit bij verschillende invoerreeksen; Claude-3.5-Sonnet is vereist voor betrouwbare prestaties, wat een impliciete rekenvereiste is die in het artikel wordt onderbelicht.

Wat overeind blijft — en wat niet

Het resultaat dat de meeste indruk op mij maakt, is de vergelijking van fout-positieven: GuardAgent en LLaMA-Guard blokkeren tot 49,2% van de legitieme Safe-OS-acties. Dat is een catastrofe voor de bruikbaarheid — een waarborg die de helft van het normale werk markeert, is een waarborg die niemand ingeschakeld laat. Het blokkeringspercentage van 4,4% van AGrail op legitieme acties is oprecht beter.

Dat gezegd hebbende, zijn er verschillende tekortkomingen die het noemen waard zijn. Ten eerste zijn de cijfers voor Environmental Injection Attacks (EIA) minder rooskleurig dan de hoofdtitels beweren: de ASR voor actiegeneratie is 28% — meer dan één op de vier aanvallen komt erdoorheen. Het artikel verbergt dit ten opzichte van het 0% resultaat voor prompt-injectie. Ten tweede is het dreigingsmodel beperkt: Safe-OS dekt drie soorten aanvallen, maar het artikel evalueert geen tegenwerkende (adversarial) redeneerketens die de Analyzer volledig omzeilen, of gevallen waarin een voldoende lange context de geheugenmodule naar de verkeerde eerdere controles duwt. Ten derde vereist het verhaal van levenslang leren dat de agent herhaaldelijk vergelijkbare acties tegenkomt om het geheugen te laten convergeren — het resultaat van convergentie bij iteratie vier geldt in de gecontroleerde opstelling van het artikel, maar het is niet vanzelfsprekend hoe snel het geheugen stabiliseert wanneer de actiedistributies sterk variëren. Ten vierde wordt de computationele overhead van het draaien van twee LLM's plus TTA-iteraties per agentstap nooit gekwantificeerd. In latentiegevoelige toepassingen zijn die kosten van belang.

De auteurs erkennen eerlijk dat ze afhankelijk zijn van algemene LLM's in plaats van gespecialiseerde waarborgmodellen, en dat de aanroep van tools minimaal is. Wat ze niet bespreken, is hoe de voorstellen voor beleidscontroles van de Analyzer zelf kunnen worden vergiftigd door een tegenstander die de step-back prompting-pijplijn begrijpt.

Waarom dit belangrijk is voor financiële AI

De taxonomie van taakspecifieke risico's + systemische risico's is direct van toepassing op boekhoudagenten. Een Beancount-agent met schrijfrechten wordt geconfronteerd met taakspecifieke risico's (beheerdersregels: "boek nooit in een afgesloten periode", "vereis altijd goedkeuring van twee partijen voor transacties boven de $10.000") naast systemische risico's (een kwaadaardige notitie in een transactiememo die instructies injecteert). De inkadering van AGrail is natuurlijker voor deze use-case dan de formele regelcircuits van ShieldAgent, omdat accountants beleid in gewone taal formuleren, niet in eerste-orde logica.

De invalshoek van levenslang leren is bijzonder relevant. Een enkele implementatie zou tientallen verschillende grootboeken kunnen beschermen — elk met een ander rekeningschema, andere boekjaar-grenzen en verschillende goedkeuringshiërarchieën. Het vermogen om veiligheidscontroles van het ene grootboek naar het andere over te dragen en ze te verfijnen via TTA in plaats van vanaf nul te beginnen, zou de configuratielast per grootboek aanzienlijk kunnen verminderen. Of de huidige implementatie dit daadwerkelijk bereikt op de schaal van een echt multi-tenant boekhoudplatform is een vraag die het artikel niet beantwoordt — de evaluaties beslaan drie verschillende agenttaken, geen tientallen.

Het foutpercentage van 28% bij EIA-actiegeneratie is het cijfer waar ik steeds op terugkom. Voor een boekhoudagent betekent een succesvolle aanval op de actiegeneratie dat er een onjuiste journaalpost wordt doorgevoerd. Dat is niet te herstellen zonder een handmatige audit. Een waarborg die faalt bij 28% van de EIA-aanvallen zou een secundaire verificatielaag vereisen — wat ons terugbrengt naar het debat over multi-agent systemen en formele verificatie-ontwerpen uit eerdere artikelen in deze leeslijst.

Wat je hierna kunt lezen

  • M3MAD-Bench (arXiv:2601.02854) — de meest uitgebreide audit over de vraag of het debat tussen meerdere agenten daadwerkelijk helpt over verschillende modaliteiten en taken heen; direct relevant als het coöperatieve LLM-ontwerp van AGrail wordt overwogen voor financiële pijplijnen.
  • ShieldAgent (arXiv:2503.22738, ICML 2025) — de formele verificatiebenadering waarmee AGrail impliciet wordt vergeleken; het zij-aan-zij lezen van beide verduidelijkt de afweging tussen adaptiviteit en formele garanties.
  • Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012, ICSE 2026) — combineert STPA-procesanalyse met MCP om afdwingbare veiligheidsspecificaties te produceren voor agenten die tools aanroepen, de meest systematische bestaande aanvulling op de runtime-controle van AGrail.