WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer
El GPT-4 completa només el 14,41% de les 812 tasques web realistes de WebArena mentre que els humans arriben al 78,24%; el mode de fallada dominant és la falsa inviabilitat —rebuig conservador a actuar— amb implicacions directes per a qualsevol agent que operi Fava o interfícies web financeres.
