OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأملبرانگیز که نشان میدهد عاملهای هوش مصنوعی امروزه چه کارهایی را میتوانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدودهی دقیق باشند.
سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریلهای مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکههای منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستمهای هوش مصنوعی مالی.
مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدلهای زبانی ۷ میلیارد پارامتری نشان میدهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست مییابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف میشود — با پیامدهای مستقیم برای طراحی عاملهای Beancount و هر سیستمی که به بهروزرسانیهای مکرر دانش نیاز دارد.
گوریلا (Patil et al., NeurIPS 2024) یک مدل LLaMA 7B را با آموزش آگاه از بازیابی (RAT) بر روی مستندات API بازیابی شده تنظیم دقیق میکند و نرخ توهم را در مقایسه با GPT-4 از ۷۸٪ به ۱۱٪ کاهش میدهد. این موضوع پیامدهای مستقیمی برای عوامل هوش مصنوعی مالی دارد که در آنها نامهای حساب اشتباه یا علامتهای معکوس، به جای مزاحمت، خطاهای جدی در صحت دادهها محسوب میشوند.
سیستم SWE-agent (NeurIPS 2024) رابطهای کاربری عامل-کامپیوتر (ACI) را معرفی میکند — لایههایی که به طور خاص برای تعامل بین مدلهای زبانی بزرگ (LLM) و محیطهای نرمافزاری ساخته شدهاند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان میدهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عاملهای کدنویسی خودمختار است.
SWE-bench مدلهای زبانی را بر روی ۲, ۲۹۴ مسئله واقعی گیتهاب در ۱۲ مخزن پایتون با استفاده از تستهای مبتنی بر اجرا ارزیابی میکند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقعگرایانه حل کرد که بنچمارک استاندارد برای عاملهای کدنویسی را ایجاد کرد و حالتهای شکست در بازیابی و طول وصله را که مستقیماً به عاملهای بازنویسی Beancount مربوط میشوند، آشکار ساخت.
بررسی دقیق Toolformer (Meta AI, NeurIPS 2023): چگونه آموزش خود-نظارتی فیلتر شده با پرپلکسیتی به یک مدل ۶.۷ میلیارد پارامتری یاد میدهد تا APIهای خارجی را فراخوانی کند، جایی که در بنچمارکهای محاسباتی از GPT-3 175B پیشی میگیرد، و چرا معماری تکمرحلهای آن نمیتواند از فراخوانیهای زنجیرهای ابزار مورد نیاز برای عملیات دفترداری ساختاریافته پشتیبانی کند.