Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP
Už nejaký čas sledujem literatúru o bezpečnostných poistkách (guardrails) — GuardAgent, ShieldAgent, AGrail — a všetky síce zlepšujú mieru detekcie, ale potichu priznávajú, že v skutočnosti nemôžu nič zaručiť. Tento článok z ICSE NIER 2026 od Doshiho a kol. z CMU a NC State na to ide z iného uhla: namiesto otázky, ako spoľahlivejšie detegovať zlé správanie agenta, sa pýtajú, ako urobiť nebezpečné správanie formálne nemožným. Ide o teoretický príspevok (position paper), nie o empirickú štúdiu, ale jeho rámcovanie je dostatočne presné na to, aby stálo za pozorné prečítanie.
O článku
Článok "Smerom k overiteľne bezpečnému používaniu nástrojov pre LLM agentov" (arXiv:2601.08012) od autorov Aarya Doshi, Yining Hong, Congying Xu, Eunsuk Kang, Alexandros Kapravelos a Christian Kästner navrhuje metodológiu na odvodenie a vynucovanie bezpečnostných špecifikácií nad používaním nástrojov LLM agentmi. Kľúčovým pozorovaním je, že riziká v agentových systémoch vznikajú primárne z kompozície nástrojov — nie zlyhaním jednotlivých nástrojov — takže ochranné prvky na úrovni komponentov ich nemôžu zachytiť. Agent riešiaci konflikt v kalendári môže správne vyhľadať súkromný zdravotný záznam a správne odoslať e-mail, a pritom stále urobiť niečo katastrofálne: uniknúť obsah tohto záznamu kolegom pacienta.
Navrhované riešenie má dve časti. Po prvé, autori aplikujú systémovo-teoretickú analýzu procesov (STPA), metódu bezpečnostného inžinierstva z oblasti letectva a jadrových systémov, na identifikáciu hazardov na úrovni agenta, odvodenie bezpečnostných požiadaviek a ich formalizáciu ako špecifikácií dátových tokov a sekvencií nástrojov. Po druhé, zavádzajú rámec Model Context Protocol (MCP) rozšírený o oprávnenia, kde každý nástroj musí deklarovať štruktúrované metadáta: úroveň oprávnení (iba na čítanie, iba na zápis, čítanie-zápis, vykonávanie), klasifikáciu dôvernosti a úroveň dôvery. Vynucovanie je potom štruktúrované do štyroch úrovní: automatický blacklist pre preukázateľne nebezpečné toky, mustlist pre povinné sekvencie, allowlist pre vopred schválené operácie a eskallácia na potvrdenie pre nejednoznačné prípady.
Krok formálnej verifikácie využíva Alloy, nástroj relačnej logiky prvého poriadku, na modelovanie execution space a vyčerpávajúcu kontrolu, či pri stanovených politikách nemôže dôjsť k porušeniu bezpečnosti, zatiaľ čo bezpečné stopy zostávajú dosiahnuteľné. Toto je primárny "výsledok" článku — neuvádza žiadne čísla presnosti benchmarkov, čo sa pri krátkom NIER príspevku očakáva.
Kľúčové myšlienky
- STPA preformulováva bezpečnosť agentov na problém systémového inžinierstva: identifikovať straty, vystopovať ich späť cez nebezpečné interakcie, odvodiť požiadavky — a to všetko ešte pred napísaním akéhokoľvek kódu na vynucovanie.
- Špecifikácie sa delia na dva druhy: obmedzenia toku informácií („e-maily k udalostiam nesmú obsahovať súkromné údaje nepatriace príjemcovi“) a obmedzenia temporálnej logiky („po každom
update_eventmusí nasledovaťsend_emailkaždému účastníkovi“). - Štvorúrovňové vynucovanie (blacklist / mustlist / allowlist / potvrdenie) je navrhnuté tak, aby znižovalo únavu z bezpečnostných upozornení — väčšina bezpečných tokov je vopred schválená, takže agent neustále nežiada o povolenie.
- Vyčerpávajúca analýza stôp v Alloy potvrdila absenciu nebezpečných tokov v prípadovej štúdii kalendára pri zachovaní funkčnosti úloh.
- Celý prístup je explicitne zameraný na úlohových agentov, nie na všeobecných asistentov — autori uznávajú, že úzko zameraných agentov je jednoduchšie zabezpečiť.