پرش به محتوای اصلی
Web Interface

همه چیز درباره Web Interface

یک مقاله
Web-based interfaces and browser agents for financial AI systems

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل می‌کند، در حالی که انسان‌ها به ۷۸.۲۴٪ می‌رسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظه‌کارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابط‌های کاربری وب مالی کار می‌کند.