یک بررسی سیستماتیک از روشهای تخمین اعتماد و کالیبراسیون در مدلهای زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی ب ر سازگاری و آنتروپی معنایی — نشان میدهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست مییابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عاملهای آگاه به عدم قطعیت در امور مالی و حسابداری دارد.
سیستم ReDAct بهطور پیشفرض یک مدل کوچک را اجرا میکند و تنها زمانی به یک مدل گرانقیمت ارجاع میدهد که پرپلکسیتی در سطح توکن نشاندهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفهجویی در هزینهها میشود؛ الگویی که مستقیماً برای عاملهای دستهبندی تراکنش در Beancount قابل استفاده است.
پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عاملهای LLM از ابزارها پیشنهاد دادهاند. تایید مبتنی بر Alloy در یک مطالعه موردی زمانبندی تقویم، عدم وجود جریانهای ناامن را اثبات میکند.
AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی میکند که بررسیهای امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم میکند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود میکنند.
سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریلهای مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکههای منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستمهای هوش مصنوعی مالی.
سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار میدهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاستها و ۱۰۰ درصد نرخ تکمیل وظایف دست مییابد، در حالی که قواعد امنیتی تعبیهشده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف میشوند.
هوانگ و همکاران (ICLR 2024) نشان میدهند که مدلهای زبانی بزرگ (LLM) وقتی بدون بازخورد بیرونی ملزم به بازبینی استدلال خود میشوند، به طور مداوم دچار کاهش دقت میشوند — دقت GPT-4 در GSM8K از ۹۵.۵٪ به ۹۱. ۵٪ کاهش مییابد — و این موضوع چه معنایی برای طراحی عوامل قابل اعتماد ثبت دفتر روزنامه Beancount دارد.
PHANTOM (NeurIPS 2025) اولین بنچمارک برای سنجش تشخیص توهم مدلهای زبانی بزرگ (LLM) در گزارشهای واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدلهای 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.