Перейти до основного вмісту
Web Interface

Все про Web Interface

1 стаття
Web-based interfaces and browser agents for financial AI systems

WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів

GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.