Преминете към основното съдържание
Web Interface

Всичко за Web Interface

Една статия
Web-based interfaces and browser agents for financial AI systems

WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите

GPT-4 изпълнява само 14,41% от 812-те реалистични уеб задачи на WebArena, докато хората достигат 78,24%; доминиращият режим на отказ е „фалшива неосъществимост“ — консервативен отказ от действие — с преки последици за всеки агент, опериращ с Fava или финансови уеб потребителски интерфейси.