WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire
GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.
