Перейти до основного вмісту
Fava

Все про Fava

1 стаття
Fava web interface for Beancount and related tooling research

WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів

GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.