Преминете към основното съдържание
Fava

Всичко за Fava

Една статия
Fava web interface for Beancount and related tooling research

WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите

GPT-4 изпълнява само 14,41% от 812-те реалистични уеб задачи на WebArena, докато хората достигат 78,24%; доминиращият режим на отказ е „фалшива неосъществимост“ — консервативен отказ от действие — с преки последици за всеки агент, опериращ с Fava или финансови уеб потребителски интерфейси.