4 پست با برچسب "Security"

AILLMSecurityAutomationBeancountComplianceTrust

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف

AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی می‌کند که بررسی‌های امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم می‌کند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود می‌کنند.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریل‌های مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکه‌های منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستم‌های هوش مصنوعی مالی.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: اعمال امنیت قطعی برای عامل‌های LLM از طریق اجرای کد

سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار می‌دهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاست‌ها و ۱۰۰ درصد نرخ تکمیل وظایف دست می‌یابد، در حالی که قواعد امنیتی تعبیه‌شده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف می‌شوند.

همه چیز درباره Security

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

GuardAgent: اعمال امنیت قطعی برای عامل‌های LLM از طریق اجرای کد

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی