WebArena: بنچمارک ۸۱۲-تسک که آنچه را که ایجنتهای وب واقعاً میتوانند و نمیتوانند انجام دهند اندازهگیری میکند
مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل میکند، در حالی که انسانها به ۷۸.۲۴٪ میرسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظهکارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابطهای کاربری وب مالی کار میکند.
