Prejsť na hlavný obsah

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Benchmark WebArena s 812 úlohami je priamym predchodcom WorkArena, o ktorom som písal včera. Ich postupné čítanie objasňuje kľúčový rozdiel: WorkArena meria podnikovú vedomostnú prácu na jednej platforme (ServiceNow), zatiaľ čo WebArena stanovuje všeobecnú spodnú hranicu schopností webových agentov naprieč realistickým otvoreným softvérom. Chcem tejto spodnej hranici presne porozumieť predtým, než začnem premýšľať o agentoch pre Beancount, ktorí budú nakoniec fungovať v prostrediach prehliadača.

Práca

2026-06-14-webarena-realistic-web-environment-autonomous-agents

Zhou et al. (ICLR 2024, arXiv:2307.13854) predstavujú WebArena, reprodukovateľný benchmark 812 úloh v štyroch self-hosted webových stránkach: e-shope Magento, sociálnom fóre Postmill, inštancii GitLab a administračnom portáli CMS Magento, doplnenom o mirror OpenStreetMap a offline kópiu Wikipédie. Na rozdiel od syntetických hračkárskych úloh MiniWoB++, každá stránka WebArena beží na skutočnom open-source softvéri s autentickým rozsahom: približne 90 000 produktov, 95 subredditov s viac ako 127 000 príspevkami a 300 Git repozitárov naprieč 1 000 vývojárskymi účtami. Úlohy pokrývajú tri kategórie — vyhľadávanie informácií, navigáciu na stránke a zmeny obsahu/konfigurácie — a vyhodnocujú sa na základe funkčnej správnosti: či sa zamýšľaný výsledok objaví v databáze alebo sa zhoduje s presnou/približnou odpoveďou, a nie podľa toho, či agent dodržal očakávanú postupnosť akcií.

Kľúčové myšlienky

  • GPT-4 dosahuje 14,41 %; ľudia dosahujú 78,24 %. Rozdiel je 63,8 percentuálneho bodu. GPT-3.5 dosahuje 8,75 % a základný model Google Text-Bison-001 len 5,05 %. Promptovanie reťazcom myšlienok (Chain-of-thought) pridáva GPT-4 približne 2,3 bodu — je to užitočné, ale nie transformačné.
  • Najčastejším zlyhaním je falošná nemožnosť. GPT-4 nesprávne označil približne 54,9 % splniteľných úloh (428 z 812) za nerealizovateľné a vrátil [N/A] namiesto toho, aby sa o ne pokúsil. Toto je dominantný režim zlyhania, nie zašumené sekvencie akcií alebo chyby nástrojov.
  • Funkčná správnosť, nie prehrávanie trajektórie. Vyhodnotenie kontroluje štyri typy dôkazov: presnú zhodu, kontrolu kľúčových slov, fuzzy zhodu založenú na LLM a programovú validáciu prostredníctvom databázových dotazov alebo JavaScriptu. Vďaka tomu je metrika robustná voči parafrázovaniu, ale stále náchylná na nejednoznačné špecifikácie úloh.
  • Self-hosting v kontajneroch umožňuje reprodukovateľnosť. Všetky štyri stránky sú dodávané ako Docker kontajnery, čo neskoršie benchmarky (WorkArena, OSWorld) replikujú. Môžete resetovať stav a zaručiť identické počiatočné podmienky, čo je pri živom web scrapingu nemožné.
  • Šablóny úloh zabraňujú slepému memorovaniu. 241 šablón generuje 812 inštancií úloh (v priemere 3,3 variantu na šablónu), čo čiastočne pomáha, ale nezabráni odhodlanému modelu naučiť sa vzorce šablón namiesto princípov webovej navigácie.
  • Skutočná zložitosť DOM je o poriadky vyššia ako v MiniWoB++. Typická stránka WebArena sa serializuje do tisícov tokenov; súvisiace práce uvádzajú stromy DOM presahujúce 100 000 tokenov pre zložité zobrazenia portálov.

Čo obstojí — a čo nie

Základná metodika je správna: skutočný softvér, vyhodnotenie založené na výsledkoch a reprodukovateľné prostredia sú presne to, čo potrebujeme. Číslo 14,41 % sa ukázalo ako trvácne v nezávislých reprodukciách a taxonómia zlyhaní (falošná nerealizovateľnosť, cyklenie, bojazlivé odmietnutie) bola potvrdená viacerými následnými prácami.

Obmedzenia sú však reálne. Po prvé, 812 úloh odvodených z 241 šablón znamená, že benchmark je konečný a systematicky pokryteľný; agent, ktorý si zapamätá vzorce šablón, by sa mohol preučiť bez generalizácie. WebArena Verified (2024–2025) objavila a opravila nesprávne nastavené kontroly vyhodnotenia, čo znamená, že časť pôvodného údaja 14,41 % môže odrážať šum pri vyhodnocovaní skôr než čistú schopnosť. Po druhé, štyri typy webových stránok — e-shop, fórum, hosting kódu, CMS — sú síce uveriteľné, ale nie sú reprezentatívnou vzorkou webu. Chýba podnikový SaaS, štátne portály s množstvom formulárov, či bankové rozhrania. Po tretie, benchmark úplne ignoruje bezpečnosť a dôveryhodnosť: agent, ktorý uspeje pri úlohe „vymazať tento príspevok“, získa rovnaké skóre bez ohľadu na to, či vymaže ten správny alebo desať ďalších. ST-WebAgentBench (2024) bol navrhnutý špeciálne na riešenie tejto medzery.

Zistenie o falošnej nerealizovateľnosti je najzaujímavejším a nedoceneným výsledkom. Naznačuje, že LLM sú kalibrované tak, aby sa vyhýbali akciám pri neistote — čo je rozumný predpoklad pre modely trénované na spätnej väzbe od ľudí — ale táto konzervatívna kalibrácia je presne to, čo je pri agentických úlohách nesprávne, kde nekonanie je samo o sebe nákladnou chybou.

Prečo je to dôležité pre finančnú AI

Rozdiel medzi 14,41 % a 78,24 % priamo kalibruje to, čo môže prehliadačový agent pre Beancount dosiahnuť dnes bez špecializovaného inžinierstva. Ak GPT-4 nedokáže spoľahlivo dokončiť rutinné webové úlohy — objednanie produktu, vytvorenie issue v GitLab, pridanie príspevku na fórum — určite mu nemožno dôverovať pri navigácii vo webovom rozhraní Fava bez dozoru. Toto nie je výzva k zúfalstvu; motivuje to k vytváraniu účelovo navrhnutých rozhraní a štruktúrovaných akčných priestorov, ktoré SWE-agent demonštroval ako funkčné pre úpravu kódu. Správnym ponaučením je, že na surovej schopnosti LLM meranej na všeobecných úlohách nezáleží; záleží na tom, nakoľko je prostredie navrhnuté tak, aby agenta podporovalo.

Problém falošnej nerealizovateľnosti má priamu analógiu v účtovníctve: agent, ktorý vráti odpoveď „nemôžem určiť, či je táto transakcia duplikát“ namiesto toho, aby to skontroloval, zlyháva presne tým istým konzervatívnym, ale nesprávnym spôsobom. Agenti so spätným zápisom potrebujú explicitný krok kontroly realizovateľnosti, ktorý si vynúti záväzok namiesto zdržania sa konania, spárovaný s poistkami pre návrat do pôvodného stavu (rollback), aby bol nesprávny záväzok opraviteľný.

Konkrétne pre Beancount je časť WebArena zameraná na CMS + administračný portál (Magento admin) najbližšou štrukturálnou analógiou k webovému rozhraniu Fava: viacstránkové administratívne rozhranie s komplexnými formulármi, vnorenou navigáciou a stavom, ktorý pretrváva medzi reláciami. Strop 14,41 % pre túto triedu úloh je to, čo by som mal považovať za predvolený predpoklad, kým nedemonštrujeme niečo lepšie.

Čo si prečítať ďalej

  • VisualWebArena (Koh et al., 2024, arXiv:2401.13649) — rozširuje WebArena pre multimodálnych agentov využívajúcich screenshoty, čo je dôležité pre Fava, keďže nie všetok relevantný stav je v DOM.
  • OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) — benchmark pre kompletné desktopové prostredie; 12,24 % pre najlepší multimodálny model vs. 72,36 % pre človeka, čím sa rozširuje medzera v schopnostiach na automatizáciu GUI mimo prehliadača.
  • ST-WebAgentBench (arXiv:2410.06703) — priamo rieši bezpečnostnú medzeru vo WebArena a meria, či weboví agenti rešpektujú pravidlá a obmedzenia pri plnení úloh.