Prejsť na hlavný obsah

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Po prečítaní hodnotenia τ-bench agentov pre volanie nástrojov v maloobchodných a leteckých doménach som sa chcel posunúť do podnikového softvéru — územia, kde agenti typu Beancount skutočne potrebujú operovať. WorkArena (Drouin et al., ServiceNow Research, 2024) testuje webových agentov LLM na 33 reálnych úlohách v rámci podnikovej platformy ServiceNow, čo z nej robí najpriamejší existujúci test toho, či súčasné modely dokážu automatizovať skutočné pracovné postupy znalostných pracovníkov namiesto syntetických hračkárskych scenárov.

Odborná štúdia

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

„WorkArena: Nakoľko sú weboví agenti schopní riešiť bežné úlohy znalostnej práce?“ predstavuje benchmark 33 úloh a 19 912 unikátnych inštancií odvodených z podnikového softvéru platformy ServiceNow. Úlohy pokrývajú šesť kategórií, ktoré znalostní pracovníci skutočne vykonávajú denne: filtrovanie a triedenie zoznamov, vypĺňanie formulárov, vyhľadávanie v znalostných bázach, objednávanie zo servisných katalógov, čítanie prehľadov (dashboardov) a navigácia v menu. Spolu s benchmarkom autori vydávajú BrowserGym, vyhodnocovacie prostredie, ktoré agentom poskytuje bohaté multimodálne pozorovania — HTML, stromy prístupnosti, snímky obrazovky — plus štandardizovaný priestor akcií pre webové interakcie.

Základná otázka, ktorú si štúdia kladie, je, či súčasné modely LLM dokážu zvládnuť štruktúrované, viacstupňové pracovné postupy obmedzené používateľským rozhraním, ktoré si vyžaduje reálny podnikový softvér. Nejde o otvorené vyhľadávacie úlohy ani o jednoduché odpovede na otázky; sú to cieľovo orientované sekvencie kliknutí, zadávania údajov do formulárov a operácií s filtrami, ktoré zanechávajú overiteľné stopy v živom systéme. Práve táto vlastnosť overenia na základe stavu systému robí WorkArenu zmysluplne odlišnou od väčšiny agentických benchmarkov a je to presne tá vlastnosť, ktorú by musel spĺňať agent pre spätný zápis do Beancountu.

Kľúčové myšlienky

  • GPT-4o dosahuje vo WorkArene celkovú úspešnosť 42,7 % s využitím chain-of-thought promptovania; GPT-3.5-Turbo zvláda iba 6,1 % a open-source Llama3-70B-Instruct dosahuje 17,9 % — čo predstavuje 25-bodovú medzeru medzi špičkovými proprietárnymi a špičkovými open-source modelmi.
  • Úlohy s filtrami v zoznamoch sú neprekonateľnou bariérou: 0 % pre každý model. Widget zoznamu v ServiceNow používa neštandardné HTML, s ktorým žiadny z testovaných agentov nedokázal spoľahlivo interagovať. Tredenie je na tom takmer rovnako zle: GPT-4o dosahuje iba 10 % pri úlohách na triedenie zoznamov.
  • Úlohy v servisnom katalógu sú prekvapivov zvládnuteľné: GPT-4o dosahuje 77,8 % v deviatich úlohách servisného katalógu, kde je používateľské rozhranie konvenčnejšie a požadované akcie úzko zodpovedajú vzorcom vypĺňania formulárov, ktoré model pravdepodobne videl počas tréningu.
  • Multimodálne pozorovania takmer nepomáhajú. Pridanie snímok obrazovky k pozorovaniam GPT-4o prinieslo „veľmi malé zlepšenie výkonu“, čo naznačuje, že úzkym hrdlom je pochopenie štruktúry používateľského rozhrania, nie absencia vizuálneho vstupu.
  • Chain-of-thought je kľúčový. Jeho odstránenie znižuje výkon Llama3-70B o približne 10 bodov vo WorkArene, čo potvrdzuje, že viacstupňové webové úlohy si vyžadujú explicitné priebežné uvažovanie, nielen predpovedanie akcií.
  • Pamäťové mechanizmy sa vypomstili. Povolenie príznaku use_think_history spôsobilo, že agenti „trvali na rozhodnutiach prijatých v počiatočných krokoch, dokonca aj na tých chybných“ — konkrétny príklad strnulého záväzku maskovaného za plánovanie.

Čo obstojí — a čo nie

Najcennejšou vlastnosťou benchmarku je, že beží proti živej inštancii ServiceNow: úspech je určený tým, či sa stav systému skutočne zmenil správne, a nie porovnávaním reťazcov s očakávaným výstupom. Vďaka tomu je 0 % pri úlohách s filtrami v zoznamoch obzvlášť usvedčujúcich — nie je sa kam schovať. Rozmanitosť úloh je tiež skutočne reprezentatívna: šesť kategórií pokrýva celé spektrum toho, čomu znalostní pracovníci venujú čas, nejde o vybrané ukážkové úlohy.

Čo považujem za menej uspokojivé, je spracovanie režimov zlyhania. Štúdia identifikuje, že exotické štruktúry HTML, vnorené iFramy a tieňové DOM-y agentov znefunkčňujú, ale systematicky neskúma, ktoré štrukturálne prvky sú za to zodpovedné alebo v akom pomere. Problém veľkosti DOM — stromy HTML v rozsahu od 40 000 do 500 000 tokenov — je spomenutý, ale nie hlbšie analyzovaný: nevieme, či by sumarizácia, rozdelenie na časti (chunking) alebo pozorovania založené výlučne na stromoch prístupnosti obnovili výkon. Architektúra s jedným agentom sa tiež nikdy neporovnáva s dekomponovaným multi-agentovým nastavením (napríklad rozdelenie na selektor/vykonávateľ), takže nie je jasné, či výsledok 0 % pri filtrovaní zoznamov je problémom rozhrania, problémom plánovania alebo oboch.

Existuje tiež otázka validity platformy, ktorú stojí za to otvoriť. ServiceNow je špecifický podnikový softvérový stack s idiosynkratickými vzormi používateľského rozhrania. Výsledky nám hovoria veľa o agentoch pre ServiceNow a o niečo menej o podnikových webových agentoch vo všeobecnosti. Zovšeobecnenie zlyhania filtrovania zoznamov napríklad na rozhranie beanquery alebo tabuľkový procesor si vyžaduje nezávislé dôkazy.

Prečo je to dôležité pre finančnú AI

Výsledky WorkAreny sú kalibračným bodom, ku ktorému sa neustále vraciam pri agende automatizácie Beancountu. Vzorec zlyhania je poučný: agentom sa darí v úlohách, ktoré vyzerajú ako webové formuláre (servisný katalóg, 77,8 %), a zlyhávajú v úlohách, ktoré si vyžadujú presnú interakciu so štruktúrovanými neštandardnými widgetmi používateľského rozhrania (filtrovanie zoznamov, 0 %). Agent Beancount vykonávajúci zápis do účtovnej knihy by čelil zmiešanému obrazu: časť premeny prirodzeného jazyka na transakciu pripomína úlohy vypĺňania formulárov, kde je výkon primeraný; ale časti týkajúce sa dopytovania, filtrovania a odsúhlasenia — hľadanie konkrétnych zápisov, triedenie podľa dátumu, aplikovanie filtrov na účty — vyzerajú oveľa viac ako úlohy so zoznamami, kde všetko zlyháva.

Štúdia tiež potvrdzuje ponaučenie zo záznamov CRITIC a Reflexion: externé overenie je dôležitejšie ako interné uvažovanie. Úlohy WorkAreny sú úspešné alebo neúspešné na základe stavu systému, a táto čistá „ground truth“ je to, čo robí benchmark úprimným. Pre agentov so spätným zápisom do Beancountu to silne hovorí v prospech dizajnu, kde sa každá potvrdená zmena v účtovnej knihe overuje voči Python API Beancountu predtým, ako je prijatá, a nie je kontrolovaná len vlastným uvažovaním agenta. Strop 42,7 % pri najlepšom modeli na ICML 2024 naznačuje, že aj pri konvenčných úlohách podnikového používateľského rozhrania je medzera od „občas užitočného“ k „spoľahlivo automatizovateľnému“ stále veľká.

Čo si prečítať ďalej

  • WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — nadväzujúca práca od rovnakého tímu ServiceNow so 682 kompozičnými úlohami vyžadujúcimi plánovanie, aritmetické uvažovanie a vyhľadávanie vo viacerých dokumentoch; priamo odpovedá na to, či škálovanie zložitosti úloh odhaľuje nové režimy zlyhania okrem bariéry interakcie s používateľským rozhraním.
  • WebArena (arXiv:2307.13854, ICLR 2024) — sprievodný benchmark univerzálnych webových agentov (812 úloh v oblasti e-commerce, fór, hostingu kódu, CMS), kde GPT-4 dosahuje iba 14,41 % oproti 78 % ľudského výkonu; zasadzuje čísla z WorkAreny do širšieho kontextu webových agentov.
  • OSWorld (arXiv:2404.07972, NeurIPS 2024) — rozširuje hodnotenie podnikovej automatizácie na plné prostredie desktopových počítačov vrátane reálnych aplikácií (LibreOffice, VS Code, Chrome); najkomplexnejší test toho, či sú režimy zlyhania z WorkAreny špecifické pre používateľské rozhranie alebo odrážajú hlbšiu medzeru v kompetenciách agentov.