بنچمارک LLMFinLiteracy نشان میدهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنشهای Beancount کاملاً صحیح تولید میکنند؛ شکستهایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عاملهای نوشتاری قابل اعتماد اشاره میکنند.
سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار میدهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاستها و ۱۰۰ درصد نرخ تکمیل وظایف دست مییابد، در حالی که قواعد امنیتی تعبیهشده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف میشوند.
بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیههای سال ۲۰۲۵ که نشان میدهد تکعاملها با بودجه مشابه با عملکرد مباحثه برابری میکنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکستهای مباحثه) خطرات خاصی برای ثبتهای دفتر کل به کمک هوش مصنوعی ایجاد میکند.
سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنالهای ابزارهای خارجی برای بازنگری در مدلهای زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عاملهای مالی Beancount مطابقت دارد.