4 записи з тегом "Security"

AILLMSecurityAutomationBeancountComplianceTrust

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.

Все про Security

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація