FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرسوجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک میزند — و به این نتیجه میرسد که نرخ فراخوانی محافظهکارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه میدهد، در حالی که عدم تطابق قصد در تمام مدلهای آزمایششده بیش از ۵۰٪ است.
پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عاملهای LLM از ابزارها پیشنهاد دادهاند. تایید مبتنی بر Alloy در یک مطالعه موردی زمانبندی تقویم، عدم وجود جریانهای ناامن را اثبات میکند.
FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارشهای SEC XBRL آزمایش میکند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص میکند.
AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی میکند که بررسیهای امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم میکند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود میکنند.
سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریلهای مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکههای منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستمهای هوش مصنوعی مالی.
AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.
مقاله هوش مصنوعی قانونمند آنتروپیک (بای و همکاران، ۲۰۲۲) مدلهای زبانی بزرگ را آموزش میدهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسبهای آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی میکند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق میشود — و زمانی که «قانون اساسی» به جای مجموعهای از قوانین اخلاقی، یک چارت حسابها باشد، گودهارتینگ، شکستهای کالیبراسیون و ریسکهای استفاده دوگانه چگونه به نظر میرسند.