4 príspevky so štítkom „Security“

AILLMSecurityAutomationBeancountComplianceTrust

Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP

Výskumníci z CMU a NC State navrhujú využitie systémovo-teoretickej analýzy procesov (STPA) a rozšíreného protokolu Model Context Protocol na odvodenie formálnych bezpečnostných špecifikácií pre používanie nástrojov LLM agentmi, pričom verifikácia založená na nástroji Alloy demonštruje absenciu nebezpečných tokov v prípadovej štúdii plánovania kalendára.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami

AGrail (ACL 2025) predstavuje kooperatívny mantinel s dvoma LLM, ktorý adaptuje bezpečnostné kontroly v čase inferencie pomocou adaptácie v čase testovania (TTA). Dosahuje 0 % úspešnosť útokov typu prompt injection a 95,6 % zachovanie legitímnych akcií na Safe-OS — v porovnaní s GuardAgent a LLaMA-Guard, ktoré blokujú až 49,2 % legitímnych akcií.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov

ShieldAgent (ICML 2025) nahrádza mantinely založené na LLM pravdepodobnostnými obvodmi pravidiel postavenými na Markovových logických sieťach, čím dosahuje presnosť 90,4 % pri útokoch na agentov so 64,7 % menej volaniami API — a čo to znamená pre overiteľnú bezpečnosť vo finančných AI systémoch.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu

GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.

Všetko o Security

Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP

AGrail: Adaptívne bezpečnostné mantinely pre LLM agentov, ktorí sa učia naprieč úlohami

ShieldAgent: Overiteľné zdôvodňovanie bezpečnostných pravidiel pre LLM agentov

GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie