Перейти к контенту
Web Interface

Все о Web Interface

1 статей
Web-based interfaces and browser agents for financial AI systems

WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов

GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.