Перейти к контенту
Fava

Все о Fava

1 статей
Fava web interface for Beancount and related tooling research

WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов

GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.