4 publicações com a etiqueta "Security"

AILLMSecurityAutomationBeancountComplianceTrust

Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP

Pesquisadores da CMU e NC State propõem o uso da Análise de Processos Teórico-Sistêmica (STPA) e um Protocolo de Contexto de Modelo aprimorado por recursos para derivar especificações formais de segurança para o uso de ferramentas por agentes de LLM, com verificação baseada em Alloy demonstrando a ausência de fluxos inseguros em um estudo de caso de agendamento de calendário.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

O AGrail (ACL 2025) apresenta um trilho de segurança cooperativo de dois LLMs que adapta verificações de segurança no momento da inferência via adaptação em tempo de teste, alcançando 0% de taxa de sucesso em ataques de injeção de prompt e 95,6% de preservação de ações benignas no Safe-OS — em comparação com o GuardAgent e o LLaMA-Guard, que bloqueiam até 49,2% das ações legítimas.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

O ShieldAgent (ICML 2025) substitui os guardrails baseados em LLM por circuitos de regras probabilísticas construídos em Redes Lógicas de Markov, alcançando 90,4% de precisão em ataques de agentes com 64,7% menos chamadas de API — e o que isso significa para a segurança verificável em sistemas de IA financeira.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

Tudo Sobre Security

Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico