OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأملبرانگیز که نشان میدهد عاملهای هوش مصنوعی امروزه چه کارهایی را میتوانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدودهی دقیق باشند.
مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل میکند، در حالی که انسانها به ۷۸.۲۴٪ میرسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظهکارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابطهای کاربری وب مالی کار میکند.
TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق میکند و در وظایف ساختاری مانند برچسبگذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی میگیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب میماند — معیاری دقیق برای آنچه مدلهای متنباز ۷ میلیاردی امروزه در هوش مصنوعی مالی میتوانند و نمیتوانند انجام دهند.
سیستم SWE-agent (NeurIPS 2024) رابطهای کاربری عامل-کامپیوتر (ACI) را معرفی میکند — لایههایی که به طور خاص برای تعامل بین مدلهای زبانی بزرگ (LLM) و محیطهای نرمافزاری ساخته شدهاند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستق یم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان میدهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عاملهای کدنویسی خودمختار است.