「Security」タグの記事が4件件あります

AILLMSecurityAutomationBeancountComplianceTrust

LLMエージェントのための検証可能な安全なツール利用：STPAとMCPの融合

CMUとノースカロライナ州立大学の研究者が、System-Theoretic Process Analysis（STPA）と機能強化されたModel Context Protocolを用いて、LLMエージェントのツール利用に関する形式的な安全仕様を導出することを提案。Alloyベースの検証により、カレンダースケジューリングのケーススタディにおいて安全でないフローが存在しないことを実証しています。

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail：タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール

AGrail（ACL 2025）は、テスト時適応（TTA）を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論

ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

GuardAgent（ICML 2025）は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。

全てについて Security

LLMエージェントのための検証可能な安全なツール利用：STPAとMCPの融合

AGrail：タスクを越えて学習するLLMエージェントのための適応型セーフティ・ガードレール

ShieldAgent: LLMエージェントのための検証可能な安全ポリシー推論

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

Beancount.ioを始める

はじめに

機能

コミュニティ

法務