ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov
Po tom, čo sme sa minulý týždeň venovali nástroju GuardAgent — ktorý prekladá bezpečnostné pravidlá do vykonateľného kódu — som si chcel prečítať článok, ktorý výslovne tvrdí, že ho prekonáva: ShieldAgent (Chen, Kang a Li, ICML 2025, arXiv:2503.22738). Zlepšenie, ktoré GuardAgent priniesol oproti mantinelom založeným na promptoch, bolo už samo o sebe významné; či pravdepodobnostné obvody pravidiel ShieldAgent skutočne uzatvárajú zvyšnú medzeru, alebo len posúvajú latku, sa zdalo byť hodné dôkladného preskúmania predtým, než sa rozhodneme, ako architektovať bezpečnosť spätného zápisu pre agentov Beancount.
Článok
ShieldAgent sa stavia do pozície prvého agenta s mantinelmi navrhnutého špecificky pre bezpečnosť agentov, a nie pre bezpečnosť LLM — čo je podstatný rozdiel. Mantinely LLM preverujú vstupy a výstupy izolovane; mantinely agentov musia vyhodnocovať viacstupňové trajektórie akcií v dynamických prostrediach, kde jediný nevinný krok m ôže byť súčasťou škodlivej sekvencie. Hlavným argumentom článku je, že existujúce prístupy, vrátane GuardAgent, sa stále príliš spoliehajú na surové uvažovanie LLM, ktoré je drahé, nekonzistentné a neoveriteľné.
Hlavným technickým prínosom je pravdepodobnostný obvod pravidiel založený na akciách: dokumenty s pravidlami sú analyzované na overiteľné pravidlá, každé pravidlo získa mäkkú váhu (implementovanú ako potenciály Markovových logických sietí) a pravidlá sú zoskupené spektrálnym zhlukovaním do obvodov špecifických pre konkrétne akcie. V čase inferencie ShieldAgent načíta príslušné obvody pre každú akciu agenta, spustí štyri formálne operácie (Hľadanie, Binárna kontrola, Detekcia a Formálna verifikácia pomocou model checkera Stormpy) a vypočíta pravdepodobnostný bezpečnostný štítok. Konečné rozhodnutie využíva podmienku relatívnej bezpečnosti — rozdiel medzi pravdepodobnosťou bezpečného a nebezpečného stavu musí prekročiť prah ε — čo znižuje počet falošne pozitívnych výsledkov v porovnaní s absolútnymi prahmi pravdepodobnosti.
Kľúčové myšlienky
- Pravdepodobnostné obvody pravidiel nad Markovovými logickými sieťami: mäkké váhy pravidiel elegantne zvládajú konfliktné alebo neúplné pravidlá, čo rigidné prístupy generujúce kód (ako GuardAgent) pri nejednoznačných pravidlách nedokážu.
- Formálna verifikácia ako prvoradá operácia: Kontrola modelu pomocou Stormpy je jednou zo štyroch ochranných operácií, nie len dodatočný doplnok. To je to, čo v skutočnosti znamená slovo „overiteľné“ v názve.
- 90,4 % presnosť pri útokoch založených na agentoch, 91,7 % pri útokoch založených na prostredí na benchmarku ShieldAgent-Bench, s 4,8 % mierou falošne pozitívnych výsledkov — najnižšou spomedzi všetkých hodnotených základných línií.
- 7,4 % priemerné zlepšenie oproti GuardAgent na troch existujúcich benchmarkoch: ST-WebAgentBench (91,1 % vs. 84,0 %), VWA-Adv (94,1 % vs. 89,9 %), AgentHarm (86,9 % vs. 78,4 %).
- O 64,7 % menej dopytov na API a o 58,2 % rýchlejšia inferencia než najlepšia predchádzajúca metóda, pretože obvody pravidiel umožňujú cielené vyhľadávanie namiesto prenášania celej trajektórie do LLM pri každom kroku.
- Zisky v súlade s pravidlami online sú vysoké: pri nasadení ako monitor v reálnom čase stúpol súlad v nákupnom prostredí zo 46,8 % na 65,3 % a pri GitLabe z 22,8 % na 50,7 %.
- ShieldAgent-Bench obsahuje 3 110 vzoriek v 6 webových prostrediach a 7 kategóriách rizika s 1 080 overenými bezpečnostnými pravidlami — ide o skutočne užitočný artefakt nezávislý od samotnej metódy.
Čo funguje — a čo nie
Základná myšlienka je správna: nahradenie surového úsudku LLM štruktúrovanými pravdepodobnostnými obvodmi robí mantinely lacnejšími, rýchlejšími a lepšie auditovateľnými. Zisky v efektivite (o 64,7 % menej volaní API) nie sú len príjemným bonusom — sú kľúčové v produkcii, kde každé vyvolanie mantinelu pridáva latenciu primárnemu agentovi.
Uznanie si zaslúži aj návrh benchmarku. ShieldAgent-Bench bol vytvorený pomocou skutočných algoritmov pre adversariálne útoky (AgentPoison, AdvWeb) na reálnych webových prostrediach, čo je oveľa dôveryhodnejšie ako syntetické súbory bezpečnostných dát.
Niekoľko vecí ma však zaráža. Po prvé, systém pri extrakcii pravidiel, ich vylepšovaní a plánovaní závisí od GPT-4o — čo znamená, že v štádiu tvorby pravidiel preberá náklady a latenciu GPT-4o. Autori poznamenávajú, že „počas počiatočnej konštrukcie modelu pravidiel sa odporúča kontrola ľudským expertom,“ čím nepriamo priznávajú, že automatizovaná extrakcia nie je dostatočne spoľahlivá na nasadenie bez dozoru. Po druhé, článok priznáva slabší výkon pri rizikách spojených s halucináciami, ktoré si vyžadujú faktické znalosti nad rámec dokumentu s pravidlami. Pre účtovných agentov, kde sa zápis môže zdať v súlade s pravidlami, ale môže byť aritmeticky nesprávny alebo odkazovať na neexistujúci účet, je to reálna medzera. Po tretie, všetky benchmarky sa týkajú prostredí webových agentov (nakupovanie, GitLab, Reddit). Chýba hodnotenie finančných alebo účtovných úloh. Pôsobivé čísla sa nemusia preniesť do domény s prísnejšími požiadavkami na aritmetickú správnosť a nižšou toleranciou voči falošne negatívnym výsledkom.
Všimol som si tiež, že údaj o „11,3 % zlepšení oproti predchádzajúcim metódam“ (uvedený v abstrakte) a údaj o „7,4 % zlepšení“ (uvedený v texte článku pre existujúce benchmarky) sa líšia. Vyššie číslo zrejme zahŕňa aj samotný ShieldAgent-Bench, kde autori kontrolujú benchmark aj metódu — čo je bežný problém pri vyhodnocovaní.
Prečo je to dôležité pre finančnú AI
Problém bezpečnosti spätného zápisu v Beancount je štrukturálne podobný tomu, čo rieši ShieldAgent: primárny agent navrhuje mutácie v účtovnej knihe a ochranný prvok musí tieto mutácie overiť voči pravidlám pred ich potvrdením. Myšlienka obvodu pravidiel sa sem presne hodí — pravidlá Beancount (žiadny nesúlad debetu a kreditu, účet musí existovať, suma musí byť kladná, transakcia musí byť autorizovaná používateľom) sú presne tie overiteľné, štruktúrované obmedzenia, ktoré profitujú z formálnej reprezentácie namiesto voľného uvažovania LLM.
Zisky v efektivite sú pre účtovníctvo dôležitejšie ako pre webových agentov. Agent na zápis do účtovnej knihy môže v rámci jednej relácie navrhnúť desiatky účtovných zápisov; mantinel, ktorý zníži volania API o 64,7 %, by mohol umožniť verifikáciu v reálnom čase. Medzera v halucináciách je však hlavným otvoreným problémom: ShieldAgent nedokáže zachytiť zápisy, ktoré sú v súlade s pravidlami, ale sú fakticky nesprávne (chybné sumy, nesprávne klasifikované účty). Pre Beancount je tento typ zlyhania pravdepodobne najbežnejší a najnákladnejší. Ako správna architektúra sa javí hybridný mantinel — ShieldAgent pre súlad s pravidlami a samostatný aritmetický verifikátor pre číselnú správnosť.
Čo si prečítať ďalej
- AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection (Luo et al., ACL 2025, arXiv:2502.11448) — využíva doplnkový prístup: adaptívne generovanie bezpečnostných kontrol, ktoré sa učí naprieč úlohami, namiesto vopred extrahovaného fixného modelu pravidiel. Porovnajte so ShieldAgentom, aby ste pochopili kompromis medzi fixnými a adaptívnymi pravidlami.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012, ICSE 2026) — využíva Systémovo-teoretickú analýzu procesov (STPA) na vytvorenie formálnych záruk bezpečnosti pre agentov volajúcich nástroje, čím prechádza od pravdepodobnostnej k deterministickej verifikácii tam, kde je to možné.
- ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents (arXiv:2410.06703) — najprísnejší z troch existujúcich benchmarkov použitých na vyhodnotenie ShieldAgent; oplatí sa pochopiť návrh úloh a definície metrík pred ich adaptáciou na vyhodnotenie finančných agentov.
