WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách
WorkArena++ (arXiv:2407.05291, NeurIPS 2024) rozširuje pôvodný benchmark WorkArena na 682 kompozičných podnikových úloh, ktoré vyžadujú reťazenie viacerých pracovných postupov – presne ten druh viacstupňovej vedomostnej práce, ktorú by musel zvládať automatizačný agent pre Beancount. Čítam to práve teraz, pretože pôvodný záznam WorkArena (LOG-061) nechal otvorenú otázku, čo sa stane, keď skomponujete atomické úlohy do reálnych pracovných postupov. Odpoveď, ktorú tento článok jasne uvádza, je, že každý súčasný LLM model pri nich prudko zlyháva.
O čom je tento článok
Boisvert a kol. zo ServiceNow Research berú atomické komponenty úloh z pôvodnej WorkAreny — vypĺňanie formulárov, filtrovanie zoznamov, vyhľadávanie v databáze znalostí, čítanie dashboardov — a spájajú ich do realistických viacstupňových podnikových workflowov. Benchmark beží kompletne v rámci živej inštancie ServiceNow cez prostredie BrowserGym, pričom agentom poskytuje HTML pozorovania a voliteľné vstupy vo forme snímok obrazovky.
Kľúčovým štrukturálnym rozhodnutím je trojúrovňová hierarchia náročnosti. L1 je pôvodná WorkArena: atomické úlohy s jednou akciou, ako napríklad „vyfiltruj tento zoznam podľa stavu = Closed“. L2 zavádza kompozičné úlohy s explicitnými pokynmi krok za krokom – agent dostane v chate úplný postup, ale musí vykonať reťazec podúloh v rôznych moduloch ServiceNow bez toho, aby stratil prehľad. L3 je ťažká verzia: agent dostane len implicitný cieľ („onboarding nového zamestnanca“) a musí najprv získať relevantný postup z firemnej databázy znalostí predtým, než naplánuje a vykoná jednotlivé kroky. To je presne spôsob, akým fungujú skutoční vedomostní pracovníci.
Autori zahŕňajú aj mechanizmus na automatické generovanie „ground-truth“ trajektórií pozorovaní a akcií z oracle riešení, čo umožňuje riadené jemné ladenie (fine-tuning) bez manuálnej anotácie.
Kľúčové myšlienky
- Ľudia riešia 93,9 % zložených úloh; GPT-4o rieši 2,1 %. Toto nie je zlyhanie v porozumení jazyka – je to zlyhanie v plánovaní a vykonávaní v meradle.
- Žiadny model nedokončí žiadnu úlohu L3. Požiadavka na vyhľadanie postupu, naplánovanie krokov a vykonanie bez explicitného vedenia je pre všetky testované modely, vrátane GPT-4o-v (variant so schopnosťou videnia), úplne nevyriešená.
- Iba GPT-4o a GPT-4o-v uspievajú v podmnožine úloh L2, predovšetkým v úlohách zameraných na memorovanie. Agenti založení na Llama3 zväčša zlyhávajú v L2 aj L3.
- Realizmus úloh L3 je kľúčovým dizajnérskym rozhodnutím: prijatie implicitného cieľa ako „onboarding nového zamestnanca“ bez postupu – a následná nutnosť si ho vyhľadať – je spôsob, akým zamestnanci v podnikovom prostredí skutočne dostávajú zadania.
- Testuje sa päť dimenzií schopností: plánovanie pod obmedzeniami, vyhľadávanie informácií, rozhodovanie založené na dátach, sekvenčná pamäť a rozpoznávanie nerealizovateľných úloh.
- Dokumentované režimy zlyhania: halucinácie o prvkoch používateľského rozhrania, neschopnosť udržať viacstupňové plány v dlhom kontexte a neschopnosť krížovo porovnávať informácie zo samostatných dokumentov.
Čo obstojí — a čo nie
Titulok o 93,9 % verzus 2,1 % je zarážajúci, ale mechanisticky vysvetliteľný. L2 a L3 vyžadujú, aby si model pamätal, čo urobil pred tromi krokmi, koreloval informácie získané z jedného dokumentu s formulárom, ktorý sa chystá vyplniť, a vedel, kedy podkrok závisí od dokončenia predchádzajúceho. To nie sú exotické schopnosti – ľudia ich robia bez námahy – ale súčasní LLM agenti zlyhávajú na koordinácii.
Čo tu považujem za najhodnotnejšie, je dizajn L2 verzus L3. L2 odovzdáva agentovi postup; L3 nie. Výkonnostný prepad medzi nimi izoluje presne jednu schopnosť: nahradenie explicitného dodržiavania pokynov kombináciou vyhľadávania a plánovania. To je tá ťažká časť autonómnej vedomostnej práce a benchmark ju jasne odhaľuje.
Čo článok nerobí, je dôkaz, že mechanizmus tréningových trajektórií skutočne pomáha. Autori poskytujú infraštruktúru na generovanie dát pre fine-tuning a uvádzajú, že modely na nich môžu byť trénované – ale neuvádzajú výsledky takéhoto tréningu. Bez tohto experimentu je WorkArena++ benchmarkom, v ktorom všetci súčasní agenti zlyhávajú, bez preukázanej cesty k zlepšeniu. To obmedzuje jej krátkodobú užitočnosť ako tréningového cieľa.
Závislosť od ServiceNow tiež obmedzuje zovšeobecniteľnosť. ServiceNow má nezvyčajne štruktúrované, dobre zdokumentované rozhranie. Ak agenti zlyhávajú tu, budú zlyhávať ešte viac v chaotickejších podnikových systémoch, ktoré väčšina organizácií v skutočnosti používa.
Prečo na tom záleží pre finančnú AI
Spojenie s automatizáciou Beancountu je priame. Autonómny účtovný agent štandardne vykonáva prácu v štýle L3: používateľ povie „zosúlaď výdavky za minulý mesiac“ a agent musí získať relevantnú štruktúru účtov z hlavnej knihy, naplánovať, ktoré položky skontrolovať, krížovo ich porovnať s importovanými bankovými údajmi a vykonať operácie zápisu – to všetko bez návodu krok za krokom. WorkArena++ číselne vyjadruje, ako zle súčasní agenti tento vzorec zvládajú.
Mechanizmus tréningových trajektórií je tiež okamžite použiteľný. Úlohy v Beancounte majú deterministické oracle riešenia – správne účtovné zápisy sú overiteľné – čo znamená, že „ground-truth“ trajektórie by sa dali generovať vo veľkom meradle pre fine-tuning špecializovaného agenta pre účtovnú knihu. To je presne to, čo WorkArena++ umožňuje bez toho, aby to samotný článok využil. Je to skôr dizajnový plán než vyriešený problém.
Nulová úspešnosť v L3 je najužitočnejším kalibračným bodom pre Bean Labs: dokonca aj v kontrolovanom podnikovom prostredí s čistými dátami a dobre štruktúrovaným rozhraním nedokážu najmodernejšie agenty zatiaľ zvládnuť kompozičné úlohy s implicitnými cieľmi. Táto priepasť je miestom, kde prebieha zaujímavý výskum.
Čo si prečítať ďalej
- TheAgentCompany (arXiv:2412.14161) — 175 úloh v rámci simulovanej softvérovej spoločnosti s reálnymi internými nástrojmi (GitLab, RocketChat); najlepší agent dokončí ~30 %; naturalistickejšie podnikové prostredie ako ServiceNow.
- τ²-bench (arXiv:2506.07982) — rozširuje τ-bench na prostredia s duálnym ovládaním, kde agent aj používateľ môžu súčasne upravovať zdieľaný stav; priamo relevantné pre Beancount relácie, kde používatelia a agenti spoločne upravujú účtovnú knihu.
- CRMArena-Pro (arXiv:2505.18878) — holistické hodnotenie LLM agentov v obchodných scenároch CRM s použitím novších modelov; testuje, či sa priepasť v schopnostiach z WorkArena++ zmenšila.
