WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

17. júna 2026 · 5 minút čítania

Mike Thrift

Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) rozširuje pôvodný benchmark WorkArena na 682 kompozičných podnikových úloh, ktoré vyžadujú reťazenie viacerých pracovných postupov – presne ten druh viacstupňovej vedomostnej práce, ktorú by musel zvládať automatizačný agent pre Beancount. Čítam to práve teraz, pretože pôvodný záznam WorkArena (LOG-061) nechal otvorenú otázku, čo sa stane, keď skomponujete atomické úlohy do reálnych pracovných postupov. Odpoveď, ktorú tento článok jasne uvádza, je, že každý súčasný LLM model pri nich prudko zlyháva.

O čom je tento článok

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert a kol. zo ServiceNow Research berú atomické komponenty úloh z pôvodnej WorkAreny — vypĺňanie formulárov, filtrovanie zoznamov, vyhľadávanie v databáze znalostí, čítanie dashboardov — a spájajú ich do realistických viacstupňových podnikových workflowov. Benchmark beží kompletne v rámci živej inštancie ServiceNow cez prostredie BrowserGym, pričom agentom poskytuje HTML pozorovania a voliteľné vstupy vo forme snímok obrazovky.

Kľúčovým štrukturálnym rozhodnutím je trojúrovňová hierarchia náročnosti. L1 je pôvodná WorkArena: atomické úlohy s jednou akciou, ako napríklad „vyfiltruj tento zoznam podľa stavu = Closed“. L2 zavádza kompozičné úlohy s explicitnými pokynmi krok za krokom – agent dostane v chate úplný postup, ale musí vykonať reťazec podúloh v rôznych moduloch ServiceNow bez toho, aby stratil prehľad. L3 je ťažká verzia: agent dostane len implicitný cieľ („onboarding nového zamestnanca“) a musí najprv získať relevantný postup z firemnej databázy znalostí predtým, než naplánuje a vykoná jednotlivé kroky. To je presne spôsob, akým fungujú skutoční vedomostní pracovníci.

Autori zahŕňajú aj mechanizmus na automatické generovanie „ground-truth“ trajektórií pozorovaní a akcií z oracle riešení, čo umožňuje riadené jemné ladenie (fine-tuning) bez manuálnej anotácie.

Kľúčové myšlienky

Ľudia riešia 93,9 % zložených úloh; GPT-4o rieši 2,1 %. Toto nie je zlyhanie v porozumení jazyka – je to zlyhanie v plánovaní a vykonávaní v meradle.
Žiadny model nedokončí žiadnu úlohu L3. Požiadavka na vyhľadanie postupu, naplánovanie krokov a vykonanie bez explicitného vedenia je pre všetky testované modely, vrátane GPT-4o-v (variant so schopnosťou videnia), úplne nevyriešená.
Iba GPT-4o a GPT-4o-v uspievajú v podmnožine úloh L2, predovšetkým v úlohách zameraných na memorovanie. Agenti založení na Llama3 zväčša zlyhávajú v L2 aj L3.
Realizmus úloh L3 je kľúčovým dizajnérskym rozhodnutím: prijatie implicitného cieľa ako „onboarding nového zamestnanca“ bez postupu – a následná nutnosť si ho vyhľadať – je spôsob, akým zamestnanci v podnikovom prostredí skutočne dostávajú zadania.
Testuje sa päť dimenzií schopností: plánovanie pod obmedzeniami, vyhľadávanie informácií, rozhodovanie založené na dátach, sekvenčná pamäť a rozpoznávanie nerealizovateľných úloh.
Dokumentované režimy zlyhania: halucinácie o prvkoch používateľského rozhrania, neschopnosť udržať viacstupňové plány v dlhom kontexte a neschopnosť krížovo porovnávať informácie zo samostatných dokumentov.

Čo obstojí — a čo nie

Titulok o 93,9 % verzus 2,1 % je zarážajúci, ale mechanisticky vysvetliteľný. L2 a L3 vyžadujú, aby si model pamätal, čo urobil pred tromi krokmi, koreloval informácie získané z jedného dokumentu s formulárom, ktorý sa chystá vyplniť, a vedel, kedy podkrok závisí od dokončenia predchádzajúceho. To nie sú exotické schopnosti – ľudia ich robia bez námahy – ale súčasní LLM agenti zlyhávajú na koordinácii.

Čo tu považujem za najhodnotnejšie, je dizajn L2 verzus L3. L2 odovzdáva agentovi postup; L3 nie. Výkonnostný prepad medzi nimi izoluje presne jednu schopnosť: nahradenie explicitného dodržiavania pokynov kombináciou vyhľadávania a plánovania. To je tá ťažká časť autonómnej vedomostnej práce a benchmark ju jasne odhaľuje.

Čo článok nerobí, je dôkaz, že mechanizmus tréningových trajektórií skutočne pomáha. Autori poskytujú infraštruktúru na generovanie dát pre fine-tuning a uvádzajú, že modely na nich môžu byť trénované – ale neuvádzajú výsledky takéhoto tréningu. Bez tohto experimentu je WorkArena++ benchmarkom, v ktorom všetci súčasní agenti zlyhávajú, bez preukázanej cesty k zlepšeniu. To obmedzuje jej krátkodobú užitočnosť ako tréningového cieľa.

Závislosť od ServiceNow tiež obmedzuje zovšeobecniteľnosť. ServiceNow má nezvyčajne štruktúrované, dobre zdokumentované rozhranie. Ak agenti zlyhávajú tu, budú zlyhávať ešte viac v chaotickejších podnikových systémoch, ktoré väčšina organizácií v skutočnosti používa.

Prečo na tom záleží pre finančnú AI

Spojenie s automatizáciou Beancountu je priame. Autonómny účtovný agent štandardne vykonáva prácu v štýle L3: používateľ povie „zosúlaď výdavky za minulý mesiac“ a agent musí získať relevantnú štruktúru účtov z hlavnej knihy, naplánovať, ktoré položky skontrolovať, krížovo ich porovnať s importovanými bankovými údajmi a vykonať operácie zápisu – to všetko bez návodu krok za krokom. WorkArena++ číselne vyjadruje, ako zle súčasní agenti tento vzorec zvládajú.

Mechanizmus tréningových trajektórií je tiež okamžite použiteľný. Úlohy v Beancounte majú deterministické oracle riešenia – správne účtovné zápisy sú overiteľné – čo znamená, že „ground-truth“ trajektórie by sa dali generovať vo veľkom meradle pre fine-tuning špecializovaného agenta pre účtovnú knihu. To je presne to, čo WorkArena++ umožňuje bez toho, aby to samotný článok využil. Je to skôr dizajnový plán než vyriešený problém.

Nulová úspešnosť v L3 je najužitočnejším kalibračným bodom pre Bean Labs: dokonca aj v kontrolovanom podnikovom prostredí s čistými dátami a dobre štruktúrovaným rozhraním nedokážu najmodernejšie agenty zatiaľ zvládnuť kompozičné úlohy s implicitnými cieľmi. Táto priepasť je miestom, kde prebieha zaujímavý výskum.

Čo si prečítať ďalej

TheAgentCompany (arXiv:2412.14161) — 175 úloh v rámci simulovanej softvérovej spoločnosti s reálnymi internými nástrojmi (GitLab, RocketChat); najlepší agent dokončí ~30 %; naturalistickejšie podnikové prostredie ako ServiceNow.
τ²-bench (arXiv:2506.07982) — rozširuje τ-bench na prostredia s duálnym ovládaním, kde agent aj používateľ môžu súčasne upravovať zdieľaný stav; priamo relevantné pre Beancount relácie, kde používatelia a agenti spoločne upravujú účtovnú knihu.
CRMArena-Pro (arXiv:2505.18878) — holistické hodnotenie LLM agentov v obchodných scenároch CRM s použitím novších modelov; testuje, či sa priepasť v schopnostiach z WorkArena++ zmenšila.

Share on Twitter Follow @beancount_io

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

O čom je tento článok

Kľúčové myšlienky

Čo obstojí — a čo nie

Prečo na tom záleží pre finančnú AI

Čo si prečítať ďalej

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie

O čom je tento článok​

Kľúčové myšlienky​

Čo obstojí — a čo nie​

Prečo na tom záleží pre finančnú AI​

Čo si prečítať ďalej​

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie

O čom je tento článok

Kľúčové myšlienky

Čo obstojí — a čo nie

Prečo na tom záleží pre finančnú AI

Čo si prečítať ďalej