WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen
WebArena's 812-taken benchmark is de directe voorganger van WorkArena, waar ik gisteren over schreef. Ze achter elkaar lezen verduidelijkt een belangrijk onderscheid: WorkArena meet enterprise-kenniswerk in één platform (ServiceNow), terwijl WebArena de algemene ondergrens voor de capaciteiten van web-agents vaststelt over realistische open software. Ik wil die ondergrens precies begrijpen voordat ik nadenk over Beancount-agents die uiteindelijk in browseromgevingen zullen opereren.
Het onderzoek
Zhou et al. (ICLR 2024, arXiv:2307.13854) introduceren WebArena, een reproduceerbare benchmark van 812 taken op vier zelf-gehoste websites: een Magento e-commerce winkel, een Postmill sociaal forum, een GitLab-instantie en een Magento CMS-beheerdersportaal, aangevuld met een OpenStreetMap-mirror en een offline Wikipedia-kopie. In tegenstelling tot de synthetische speeltuinstaken van MiniWoB++, draait elke WebArena-site op echte open-source software met authentieke schaal: ongeveer 90.000 producten, 95 subreddits met meer dan 127.000 berichten, en 300 Git-repositories verdeeld over 1.000 ontwikkelaarsaccounts. Taken omvatten drie categorieën — informatie zoeken, websitenavigatie en wijzigingen in inhoud/configuratie — en worden geëvalueerd op functionele correctheid: of het beoogde resultaat in de database verschijnt of overeenkomt met een exact/fuzzy antwoord, niet of de agent de verwachte actiereeks volgde.
Kernideeën
- GPT-4 haalt 14,41%; mensen halen 78,24%. Het gat is 63,8 procentpunt. GPT-3.5 scoort 8,75%, en de Google Text-Bison-001 baseline scoort slechts 5,05%. Chain-of-thought prompting voegt ongeveer 2,3 punten toe voor GPT-4 — nuttig maar niet transformatief.
- De meest voorkomende fout is foutieve onmogelijkheid. GPT-4 bestempelde ongeveer 54,9% van de haalbare taken (428 van de 812) onterecht als onuitvoerbaar en gaf [N/A] terug in plaats van ze te proberen. Dit is de dominante foutmodus, niet ruis in actiereeksen of fouten in tools.
- Functionele correctheid, geen traject-reproductie. Evaluatie controleert vier bewijstypes: exacte match, controles op verplichte trefwoorden, LLM-gebaseerde fuzzy match, en programmatische validatie via database-query's of JavaScript. Dit maakt de metriek robuust tegen parafrasering, maar nog steeds gevoelig voor dubbelzinnige taakspecificaties.
- Gecontaineriseerde zelf-hosting maakt reproduceerbaarheid mogelijk. Alle vier de sites worden geleverd als Docker-containers, wat latere benchmarks (WorkArena, OSWorld) repliceren. Je kunt de status resetten en identieke startomstandigheden garanderen, iets wat onmogelijk is met live web scraping.
- Taak-sjablonen voorkomen blindelings uit het hoofd leren. 241 sjablonen leveren 812 geïnstantieerde taken op (3,3 varianten elk), wat enigszins helpt maar niet voorkomt dat een vastberaden model sjabloonpatronen leert in plaats van principes voor webnavigatie.
- De complexiteit van de echte DOM is vele malen groter dan bij MiniWoB++. Een typische WebArena-pagina wordt geserialiseerd naar duizenden tokens; gerelateerd werk rapporteert DOM-trees die de 100.000 tokens overschrijden voor complexe portaalweergaven.
Wat overeind blijft — en wat niet
De kernmethodologie is solide: echte software, op resultaten gebaseerde evaluatie en reproduceerbare omgevingen zijn precies goed. Het getal van 14,41% is duurzaam gebleken in onafhankelijke reproducties, en de foutentaxonomie (foutieve onuitvoerbaarheid, lusgedrag, timide weigering) is bevestigd door meerdere opeenvolgende papers.
De beperkingen zijn echter reëel. Ten eerste betekenen 812 taken afgeleid van 241 sjablonen dat de benchmark eindig en systematisch te dekken is; een agent die sjabloonpatronen onthoudt, zou kunnen overfitten zonder te generaliseren. WebArena Verified (2024–2025) ontdekte en herstelde niet-overeenstemmende evaluatiecontroles, wat betekent dat een deel van het oorspronkelijke cijfer van 14,41% evaluatieruis kan weerspiegelen in plaats van puur vermogen. Ten tweede zijn de vier websitetypes — e-commerce, forum, codehosting, CMS — aannemelijk maar geen principiële steekproef van het web. Er is geen enterprise SaaS, geen formulier-zware overheidsportaal, geen bankinterface. Ten derde negeert de benchmark volledig veiligheid en betrouwbaarheid: een agent die slaagt bij "verwijder dit bericht" verdient dezelfde score, of hij nu het juiste bericht verwijdert of tien andere. ST-WebAgentBench (2024) werd specifiek ontworpen om dit gat te dichten.
De bevinding over foutieve onuitvoerbaarheid is het meest interessante en ondergewaardeerde resultaat. Het suggereert dat LLM's zijn gekalibreerd om actie te vermijden bij onzekerheid — een redelijke aanname voor modellen getraind op menselijke feedback — maar dat die conservatieve kalibratie precies verkeerd is voor agent-taken waarbij niet handelen op zichzelf een kostbare fout is.
Waarom dit belangrijk is voor finance AI
Het gat tussen 14,41% en 78,24% geeft direct aan wat een Beancount-browseragent vandaag de dag kan bereiken zonder gespecialiseerde engineering. Als GPT-4 niet betrouwbaar routine-webtaken kan voltooien — een product bestellen, een GitLab-issue aanmaken, een bericht op een forum plaatsen — kan deze zeker niet worden vertrouwd om zonder toezicht door de Fava web-UI te navigeren. Dit is geen pleidooi voor wanhoop; het motiveert het soort speciaal gebouwde interfaces en gestructureerde actieruimtes waarvan SWE-agent heeft aangetoond dat ze werken voor het bewerken van code. De juiste les is dat de ruwe LLM-capaciteit gemeten op generieke taken niet is wat telt; wat telt is in hoeverre de omgeving is ontworpen om de agent te ondersteunen.
Het probleem van foutieve onuitvoerbaarheid heeft een directe analogie in de boekhouding: een agent die "ik kan niet bepalen of deze transactie een duplicaat is" teruggeeft in plaats van te controleren, faalt op precies dezelfde conservatieve-maar-foutieve manier. Write-back agents hebben een expliciete stap voor het controleren van de uitvoerbaarheid nodig die actie afdwingt in plaats van zich te onthouden, gecombineerd met vangnetten voor het terugdraaien van acties, zodat een onjuiste actie herstelbaar is.
Specifiek voor Beancount is het CMS + admin-portaalgedeelte van WebArena (Magento admin) de nauwste structurele analogie voor de web-UI van Fava: een admin-interface met meerdere pagina's, complexe formulieren, geneste navigatie en status die over sessies heen blijft bestaan. Het plafond van 14,41% voor die klasse van taken is wat ik als standaardveronderstelling moet beschouwen totdat we iets beters laten zien.
Wat nu te lezen
- VisualWebArena (Koh et al., 2024, arXiv:2401.13649) — breidt WebArena uit naar multimodale agents met behulp van screenshots, wat belangrijk is voor Fava aangezien niet alle relevante status zich in de DOM bevindt.
- OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) — volledige desktop-omgeving benchmark; 12,24% voor het beste multimodale model vs. 72,36% voor mensen, wat de capaciteitskloof uitbreidt naar GUI-automatisering buiten de browser.
- ST-WebAgentBench (arXiv:2410.06703) — pakt direct het veiligheidsgat in WebArena aan en meet of web-agents zich houden aan beleidsbeperkingen tijdens het voltooien van taken.
