Salta al contingut principal

WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

El referent de 812 tasques de WebArena és el predecessor directe de WorkArena, del qual vaig parlar ahir. Llegir-los consecutivament aclareix una distinció clau: WorkArena mesura el treball de coneixement empresarial en una sola plataforma (ServiceNow), mentre que WebArena estableix el nivell base de capacitat general dels agents web a través de programari obert realista. Vull entendre aquest nivell base amb precisió abans de pensar en els agents de Beancount que eventualment operaran en entorns de navegador.

L'article

2026-06-14-webarena-realistic-web-environment-autonomous-agents

Zhou et al. (ICLR 2024, arXiv:2307.13854) presenten WebArena, un referent reproduïble de 812 tasques en quatre llocs web autoallotjats: una botiga de comerç electrònic Magento, un fòrum social Postmill, una instància de GitLab i un portal d'administració CMS de Magento, complementats per un mirall d'OpenStreetMap i una còpia fora de línia de la Viquipèdia. A diferència de les tasques sintètiques de joguina de MiniWoB++, cada lloc de WebArena executa programari real de codi obert amb una escala autèntica: aproximadament 90.000 productes, 95 subreddits amb més de 127.000 publicacions i 300 repositoris Git en 1.000 comptes de desenvolupadors. Les tasques abasten tres categories —cerca d'informació, navegació pel lloc i canvis de contingut/configuració— i s'avaluen segons la correcció funcional: si el resultat previst apareix a la base de dades o coincideix amb una resposta exacta o aproximada, no si l'agent ha seguit la seqüència d'accions esperada.

Idees clau

  • El GPT-4 arriba al 14,41%; els humans arriben al 78,24%. La diferència és de 63,8 punts percentuals. El GPT-3.5 obté un 8,75%, i el nivell base de Google Text-Bison-001 només obté un 5,05%. L'ús de missatges de cadena de pensament (Chain-of-thought) afegeix aproximadament 2,3 punts per al GPT-4 —útil però no transformador.
  • La fallada més comuna és la falsa impossibilitat. El GPT-4 va etiquetar incorrectament aproximadament el 54,9% de les tasques realitzables (428 de 812) com a inviables, retornant [N/A] en lloc d'intentar-les. Aquest és el mode de fallada dominant, no les seqüències d'accions sorolloses o els errors d'eines.
  • Correcció funcional, no repetició de trajectòria. L'avaluació comprova quatre tipus de proves: coincidència exacta, comprovacions de paraules clau obligatòries, coincidència aproximada basada en LLM i validació programàtica mitjançant consultes a la base de dades o JavaScript. Això fa que la mètrica sigui robusta a la parafraseig, però encara susceptible a especificacions de tasques ambigües.
  • L'autoallotjament en contenidors permet la reproductibilitat. Els quatre llocs s'entreguen com a contenidors Docker, que és el que repliquen els referents posteriors (WorkArena, OSWorld). Es pot restablir l'estat i garantir condicions inicials idèntiques, cosa impossible amb l'extracció de dades web (scraping) en viu.
  • Les plantilles de tasques eviten la memorització cega. 241 plantilles generen 812 tasques instanciades (3,3 variants cadascuna), cosa que ajuda una mica però no impedeix que un model determinat aprengui els patrons de les plantilles en lloc dels principis de navegació web.
  • La complexitat real del DOM és ordres de magnitud superior a MiniWoB++. Una pàgina típica de WebArena se serialitza en milers de tokens; treballs relacionats informen de dominis que superen els 100.000 tokens per a vistes de portals complexos.

Què es manté vigent — i què no

La metodologia bàsica és sòlida: programari real, avaluació basada en resultats i entorns reproduïbles són exactament el camí correcte. La xifra del 14,41% s'ha demostrat duradora en reproduccions independents, i la taxonomia de fallades (falsa inviabilitat, comportaments en bucle, rebuig temorós) ha estat confirmada per múltiples articles posteriors.

Tanmateix, les limitacions són reals. Primer, 812 tasques derivades de 241 plantilles significa que el referent és finit i sistemàticament cobrible; un agent que memoritzi els patrons de les plantilles podria sobreajustar-se sense generalitzar. WebArena Verified (2024–2025) va descobrir i reparar comprovacions d'avaluació mal alineades, cosa que significa que part de la xifra original del 14,41% pot reflectir soroll d'avaluació més que capacitat pura. Segon, els quatre tipus de llocs web —comerç electrònic, fòrum, allotjament de codi, CMS— són plausibles però no una mostra representativa de la web. No hi ha SaaS empresarial, ni portals governamentals amb formularis densos, ni interfícies bancàries. Tercer, el referent ignora completament la seguretat i la fiabilitat: un agent que té èxit en "eliminar aquesta publicació" obté la mateixa puntuació tant si elimina la publicació correcta com deu altres. ST-WebAgentBench (2024) es va dissenyar específicament per abordar aquesta mancança.

La troballa de la falsa inviabilitat és el resultat més interessant i menys valorat. Suggereix que els LLM estan calibrats per evitar l'acció sota incertesa —una prioritat raonable per als models formats amb retroalimentació humana— però que aquest calibratge conservador és exactament erroni per a tasques d'agents on no actuar és, en si mateix, un error costós.

Per què això és important per a la IA financera

La bretxa entre el 14,41% i el 78,24% calibra directament el que un agent de navegador Beancount pot aconseguir avui dia sense enginyeria especialitzada. Si el GPT-4 no pot completar de manera fiable tasques web rutinàries —demanar un producte, crear una incidència a GitLab, publicar en un fòrum—, certament no se li pot confiar la navegació per la interfície web de Fava sense supervisió. Això no és un missatge de desesperació; motiva la creació d'interfícies fetes a mida i espais d'acció estructurats que el SWE-agent va demostrar que funcionen per a l'edició de codi. La lliçó correcta és que la capacitat bruta dels LLM mesurada en tasques genèriques no és el que importa; el que importa és fins a quin punt l'entorn està dissenyat per donar suport a l'agent.

El problema de la falsa inviabilitat té una analogia directa en la comptabilitat: un agent que retorna "No puc determinar si aquesta transacció és un duplicat" en lloc de comprovar-ho està fallant exactament de la mateixa manera conservadora però errònia. Els agents d'escriptura (write-back) necessiten un pas explícit de comprovació de viabilitat que forci el compromís en lloc de l'abstenció, combinat amb xarxes de seguretat de reversió perquè equivocar-se en el compromís sigui recuperable.

Per a Beancount específicament, la part de CMS + portal d'administració de WebArena (administració de Magento) és l'analogia estructural més propera a la interfície web de Fava: una interfície d'administració de diverses pàgines amb formularis complexos, navegació niada i estat que persisteix entre sessions. El sostre del 14,41% en aquesta classe de tasques és el que hauria de tractar com a hipòtesi per defecte fins que demostrem alguna cosa millor.

Què llegir a continuació

  • VisualWebArena (Koh et al., 2024, arXiv:2401.13649) — amplia WebArena a agents multimodals utilitzant captures de pantalla, cosa que és important per a Fava ja que no tot l'estat rellevant es troba al DOM.
  • OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) — referent d'entorn d'escriptori complet; 12,24% per al millor model multimodal vs. 72,36% humà, estenent la bretxa de capacitat a l'automatització de GUI més enllà del navegador.
  • ST-WebAgentBench (arXiv:2410.06703) — aborda directament la bretxa de seguretat a WebArena, mesurant si els agents web respecten les restriccions de les polítiques mentre completen les tasques.