4 поста с тегом "Security"

AILLMSecurityAutomationBeancountComplianceTrust

Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP

Исследователи из CMU и Университета штата Северная Каролина предлагают использовать системно-теоретический анализ процессов (STPA) и расширенный возможностями протокол Model Context Protocol для вывода формальных спецификаций безопасности использования инструментов LLM-агентами, с верификацией на базе Alloy, демонстрирующей отсутствие небезопасных потоков в кейсе планирования календаря.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах

AGrail (ACL 2025) представляет кооперативную систему защиты из двух LLM, которая адаптирует проверки безопасности во время вывода с помощью адаптации во время теста (TTA), достигая 0% успеха атак через промпт-инъекции и сохраняя 95,6% легитимных действий в Safe-OS — в то время как GuardAgent и LLaMA-Guard блокируют до 49,2% нормальных действий.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов

ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

GuardAgent (ICML 2025) размещает отдельного LLM-агента между целевым агентом и его средой, проверяя каждое предложенное действие путем генерации и выполнения кода на Python — достигая точности соблюдения политик в 98,7% при сохранении 100% завершаемости задач, по сравнению с 81% точности и 29–71% отказов при использовании правил безопасности, встроенных в промпт.

Все о Security

Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP

AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах

ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация