WebArena: бенчмарк із 812 завдань, що вимірює реал ьні можливості та обмеження веб-агентів
GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.
