WebArena: El benchmark de 812 tareas que mide lo que los agentes web realmente pueden y no pueden hacer
GPT-4 completa solo el 14,41% de las 812 tareas web realistas de WebArena, mientras que los humanos alcanzan el 78,24%; el modo de fallo dominante es la falsa inviabilidad (un rechazo conservador a actuar), con implicaciones directas para cualquier agente que opere Fava o interfaces web financieras.
