WebArena: бенчмарк из 812 задач, измеряющий реа льные возможности и ограничения веб-агентов
GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.
