WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen
GPT-4 voltooit slechts 14,41% van de 812 realistische webtaken van WebArena, terwijl mensen 78,24% halen; de dominante foutmodus is foutieve onuitvoerbaarheid — een conservatieve weigering om te handelen — met directe gevolgen voor elke agent die Fava of financiële web-UI's bedient.
