AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami
Sledoval som preteky v zbrojení bezpečnostných mantinelov pre LLM agentov pomerne pozorne — GuardAgent v roku 2024, ShieldAgent na ICML 2025 — a AGrail (Luo et al., ACL 2025) je ďalším krokom, ktorý som si musel prečítať. Zameriava sa na medzeru v škálovateľnosti, ktorú ani jeden z predchodcov nevyriešil: čo sa stane, keď jeden systém mantinelov musí chrániť agentov v mnohých rôznych úlohách, z ktorých každá má svoj vlastný slovník pravidiel a rizikový povrch, bez toho, aby bol vopred naprogramovaný pre každú z nich?
Práca
Weidi Luo, Shenghong Dai, Xiaogeng Liu, Suman Banerjee, Huan Sun, Muhao Chen a Chaowei Xiao predstavujú AGrail — „Celoživotný mantinel pre agentov s efektívnou a adaptívnou detekciou bezpečnosti“ — publikovaný v sekcii long-paper na ACL 2025. Hlavný problém je dvojaký: LLM agenti čelia rizikám špecifickým pre úlohu definovaným administrátorom (napr. „nemaž súbory v tomto adresári“) a systémovým rizikám z dizajnových zraniteľností (prompt injection, útoky na prostredie). Existujúce mantinely zvládajú v najlepšom prípade jednu z týchto kategórií a vyžadujú manuálnu špecifikáciu pravidiel pre každú úlohu. Odpoveďou AGrail je kooperatívny systém dvoch LLM — Analyzátora a Exekútora — ktorý generuje, testuje a iteratívne vylepšuje bezpečnostné kontroly v čase inferencie prostredníctvom adaptácie v čase testovania (TTA), pričom vylepšené kontroly ukladá do pamäťového modulu, ktorý prenáša učenie do budúcich úloh.
Kľúčové myšlienky
- Kooperácia dvoch LLM: Analyzátor vyhľadáva relevantné bezpečnostné kontroly v pamäti, reviduje ich a navrhuje aktualizované sady kontrol. Exekútor vyhodnocuje každú navrhovanú kontrolu — rozhoduje, či zavolať externý nástroj, spoľahnúť sa na vlastné uvažovanie alebo zahodiť nadbytočnú kontrolu. Táto slučka beží iteratívne, kým sada kontrol nekonverguje.
- Pamäť so step-back promptingom: Akcie sú uložené v prirodzenom jazyku aj v reprezentáciách príkazov nástrojov pomocou step-back promptingu. Počas inferencie sa zobrazuje iba forma v prirodzenom jazyku (aby sa zabránilo rušeniu syntaxou surových príkazov), ale obe formy sa používajú na vyhľadávanie. Pamäť konverguje okolo štvrtej iterácie TTA s viac ako 98 % kosínusovou podobnosťou naprieč náhodnými seedmi.
- Benchmark Safe-OS: Autori uvádzajú nový dataset 100 scenárov simulujúcich interakcie agentov v reálnom operačnom systéme cez Docker — 23 prompt injection, 30 systémových sabotáží, 20 útokov na prostredie a 27 bežných prípadov — pretože žiadny existujúci benchmark nespájal všetky tri typy systémových rizík.
- 96 % zachovanie legitímnych akcií pri 0 % ASR útokov prompt injection: Na Safe-OS s modelom Claude-3.5-Sonnet blokuje AGrail iba 4,4 % legitímnych akcií (95,6 % zachovanie), pričom dosahuje 0 % úspešnosť útokov (ASR) proti prompt injection. Konkurenčné modely blokujú až 49,2 % legitímnych akcií.
- Výsledky rizík špecifických pre úlohu: Na Mind2Web-SC (webový agent) dosahuje AGrail F1=94,1 s 95,8 % zhodou. Na EICU-AC (súkromie v zdravotníctve) F1=98,5 so 100 % zhodou.
- Nestabilita slabých modelov: GPT-4o-mini ako základný model vykazuje nestabilitu naprieč vstupnými sekvenciami; pre spoľahlivý výkon je potrebný Claude-3.5-Sonnet, čo je implicitný predpoklad na výpočtový výkon, ktorý práca podceňuje.
Čo obstojí — a čo nie
Výsledok, ktorý ma najviac zaujal, je porovnanie falošne pozitívnych výsledkov: GuardAgent a LLaMA-Guard blokujú až 49,2 % legitímnych akcií na Safe-OS. To je katastrofa z hľadiska použiteľnosti — mantinel, ktorý označí polovicu normálnej práce za nebezpečnú, je mantinel, ktorý nikto nenechá zapnutý. 4,4 % miera blokovania legitímnych akcií v prípade AGrail je skutočne lepšia.
Napriek tomu stojí za zmienku niekoľko nedostatkov. Po prvé, čísla pri útokoch injekciou do prostredia (EIA) sú slabšie než hlavné tvrdenia: ASR generovania akcií je 28 % — viac ako jeden zo štyroch útokov prejde. Práca tento fakt potláča v porovnaní s 0 % výsledkom pri prompt injection. Po druhé, model hrozieb je úzky: Safe-OS pokrýva tri typy útokov, ale práca nevyhodnocuje nepriateľské reťazce uvažovania, ktoré úplne obchádzajú Analyzátor, ani prípady, kedy dostatočne dlhý kontext tlačí pamäťový modul k nesprávnym predchádzajúcim kontrolám. Po tretie, príbeh o celoživotnom učení vyžaduje, aby sa agent opakovane stretával s podobnými akciami, aby pamäť konvergovala — výsledok konvergencie po štvrtej iterácii platí v kontrolovanom nastavení práce, ale nie je zrejmé, ako rýchlo sa pamäť stabilizuje pri vysokej variabilite distribúcie akcií. Po štvrté, výpočtová réžia pri spustení dvoch LLM plus iterácií TTA na každý krok agenta nie je nikde vyčíslená. V aplikáciách citlivých na latenciu na tomto náklade záleží.
Autori úprimne priznávajú, že závisia od všeobecných LLM namiesto špecializovaných modelov mantinelov a že vyvolávanie nástrojov je minimálne. Čo nediskutujú, je možnosť, že návrhy bezpečnostných kontrol Analyzátora by mohli byť samy otrávené útočníkom, ktorý rozumie pipeline step-back promptingu.
Prečo na tom záleží pre finančnú AI
Taxonómia rizík špecifických pre úlohu a systémových rizík sa priamo vzťahuje na účtovných agentov. Agent pre spätný zápis do Beancountu čelí rizikám špecifickým pre úlohu (administrátorské pravidlá: „nikdy neúčtuj do uzamknutého obdobia“, „vždy vyžaduj schválenie dvoma stranami pre transakcie nad 10 000 USD“) spolu so systémovými rizikami (škodlivá poznámka v memorande transakcie, ktorá vkladá inštrukcie). Rámcovanie AGrail je pre tento prípad použitia prirodzenejšie než formálne obvody pravidiel ShieldAgent, pretože účtovníci formulujú politiky v prirodzenom jazyku, nie v logike prvého rádu.
Aspekt celoživotného učenia je obzvlášť relevantný. Jedno nasadenie by mohlo chrániť desiatky odlišných účtovných kníh — každú s inými pravidlami účtovného rozvrhu, inými hranicami fiškálneho roka a inými schvaľovacími hierarchiami. Schopnosť prenášať bezpečnostné kontroly z jednej knihy do druhej a vylepšovať ich cez TTA namiesto začínania od nuly by mohla zmysluplne znížiť záťaž pri konfigurácii každej knihy. Či súčasná implementácia skutočne dosahuje tento cieľ v rozsahu reálnej multi-tenant účtovnej platformy, je otázka, na ktorú práca neodpovedá — jej hodnotenia pokrývajú tri odlišné úlohy agentov, nie desiatky.
28 % miera zlyhania generovania akcií pri EIA je číslo, ku ktorému sa stále vraciam. Pre účtovného agenta znamená úspešný nepriateľský útok na generovanie akcií to, že sa zapíše nesprávny účtovný zápis. To nie je napraviteľné bez manuálneho auditu. Mantinel, ktorý zlyhá pri 28 % útokov EIA, by vyžadoval sekundárnu verifikačnú vrstvu — čo nás vracia k debate o multi-agentových systémoch a návrhoch formálnej verifikácie z predchádzajúcich častí tohto zoznamu literatúry.
Čo čítať ďalej
- M3MAD-Bench (arXiv:2601.02854) — najkomplexnejší audit toho, či multi-agentová debata skutočne pomáha naprieč modalitami a úlohami; priamo relevantné, ak sa uvažuje o kooperatívnom LLM dizajne AGrail pre finančné pipeline.
- ShieldAgent (arXiv:2503.22738, ICML 2025) — prístup založený na formálnej verifikácii, s ktorým je AGrail implicitne porovnávaný; čítanie oboch prác vedľa seba objasňuje kompromis medzi adaptivitou a formálnymi zárukami.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012, ICSE 2026) — kombinuje procesnú analýzu STPA s MCP na vytvorenie vynutiteľných bezpečnostných špecifikácií pre agentov volajúcich nástroje, čo je najsystémovejší existujúci doplnok k runtime kontrolám AGrail.
