WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer
O GPT-4 conclui apenas 14,41% das 812 tarefas web realistas do WebArena, enquanto humanos atingem 78,24%; o principal modo de falha é a falsa inviabilidade — recusa conservadora de agir — com implicações diretas para qualquer agente que opere o Fava ou interfaces web financeiras.
