Doorgaan naar hoofdinhoud

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) breidt de originele WorkArena-benchmark uit naar 682 compositionele bedrijfstaken die het koppelen van meerdere workflows vereisen — precies het meerstaps kenniswerk dat een Beancount-automatiseringsagent zou moeten afhandelen. Ik lees het nu omdat het originele WorkArena-logboek (LOG-061) de vraag openliet wat er gebeurt als je atomaire taken samenstelt tot echte workflows. Het antwoord, zoals dit artikel duidelijk maakt, is dat elk huidig LLM volledig door de mand valt.

Het artikel

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert et al. van ServiceNow Research nemen de atomaire taakcomponenten van de originele WorkArena — formulieren invullen, lijsten filteren, zoeken in de kennisbank, dashboards lezen — en voegen deze samen tot realistische meerstaps bedrijfsworkflows. De benchmark draait volledig binnen een live ServiceNow-instantie via de BrowserGym-omgeving, waarbij agenten HTML-observaties en optionele screenshot-inputs krijgen.

De belangrijkste structurele beslissing is een hiërarchie van drie moeilijkheidsniveaus. L1 is de originele WorkArena: atomaire taken met een enkele actie, zoals "filter deze lijst op status = Gesloten". L2 introduceert compositionele taken met expliciete stapsgewijze instructies — de agent ontvangt een volledige procedure in de chat maar moet een reeks subtaken uitvoeren in verschillende ServiceNow-modules zonder de draad kwijt te raken. L3 is de moeilijke versie: de agent krijgt alleen een impliciet doel ("onboard een nieuwe medewerker") en moet eerst de relevante procedure ophalen uit de kennisbank van het bedrijf voordat de stappen worden gepland en uitgevoerd. Dat is precies hoe echte kenniswerkers te werk gaan.

De auteurs voegen ook een mechanisme toe om automatisch ground-truth observatie-actie-traces te genereren uit oracle-oplossingen, wat supervised fine-tuning mogelijk maakt zonder handmatige annotatie.

Belangrijkste ideeën

  • Mensen lossen 93,9% van de samengestelde taken op; GPT-4o lost 2,1% op. Dit is geen tekortkoming in taalbegrip — het is een falen in planning en uitvoering op schaal.
  • Geen enkel model voltooit een L3-taak. De vereiste om een procedure op te halen, stappen te plannen en uit te voeren zonder expliciete begeleiding is volledig onopgelost door alle geteste modellen, inclusief GPT-4o-v (de variant met visuele mogelijkheden).
  • Alleen GPT-4o and GPT-4o-v slagen voor een subset van L2-taken, voornamelijk memorisatie-subtaken. Op Llama3 gebaseerde agenten falen grotendeels bij zowel L2 als L3.
  • Realisme van L3-taken is de belangrijkste ontwerpkeuze: het ontvangen van een impliciet doel zoals "onboard een nieuwe medewerker" zonder procedure — en deze vervolgens moeten opzoeken — is hoe werknemers daadwerkelijk opdrachten krijgen in bedrijfsomgevingen.
  • Er worden vijf vaardigheidsdimensies getest: plannen onder beperkingen, informatie ophalen, datagestuurd redeneren, sequentieel geheugen en het herkennen van onhaalbare taken.
  • Gedocumenteerde foutmodi: hallucinaties over UI-elementen, onvermogen om meerstapsplannen vast te houden over een lange context, en het onvermogen om informatie uit afzonderlijke documenten te kruisverwijzen.

Wat overeind blijft — en wat niet

De kop van 93,9% versus 2,1% is opvallend, maar mechanisch verklaarbaar. L2 en L3 vereisen dat een model zich herinnert wat het drie stappen geleden deed, informatie correleert die uit het ene document is opgehaald met een formulier dat het gaat invullen, en weet wanneer een substap afhankelijk is van het voltooien van een eerdere stap. Dit zijn geen exotische vaardigheden — mensen doen ze moeiteloos — maar de huidige LLM-agenten lopen vast op de coördinatie.

Wat ik hier het meest waardevol vind, is het ontwerp van L2 versus L3. L2 geeft de agent een procedure; L3 niet. De prestatiekloof tussen hen isoleert precies één vaardigheid: het vervangen van expliciete instructies door ophalen-plus-planning. Dat is het moeilijke deel van autonoom kenniswerk, en de benchmark legt dit feilloos bloot.

Wat het artikel niet doet, is aantonen dat het trainingsmechanisme voor traces daadwerkelijk helpt. De auteurs bieden de infrastructuur om fine-tuning data te genereren en stellen dat modellen hierop getraind kunnen worden — maar ze rapporteren geen resultaten hiervan. Zonder dat experiment is WorkArena++ een benchmark waarop alle huidige agenten falen, zonder een aangetoonde weg naar verbetering. Dat beperkt de bruikbaarheid op korte termijn als trainingsdoel.

De afhankelijkheid van ServiceNow beperkt ook de generaliseerbaarheid. ServiceNow heeft een ongebruikelijk gestructureerde, goed gedocumenteerde interface. Als agenten hier al falen, zullen ze nog harder falen op de rommeligere bedrijfssystemen waar de meeste organisaties daadwerkelijk mee werken.

Waarom dit belangrijk is voor financiële AI

De verbinding met Beancount-automatisering is direct. Een autonome boekhoudagent doet standaard werk in L3-stijl: een gebruiker zegt "reconcilieer de uitgaven van vorige maand" en de agent moet de relevante rekeningstructuur uit het grootboek halen, plannen welke boekingen moeten worden gecontroleerd, kruisverwijzen met geïmporteerde bankgegevens en terugschrijfbewerkingen uitvoeren — en dat alles zonder een stapsgewijze handleiding. WorkArena++ hangt een getal aan hoe slecht de huidige agenten dit patroon afhandelen.

Het trace-mechanisme voor training is ook direct toepasbaar. Beancount-taken hebben deterministische oracle-oplossingen — de juiste journaalposten zijn verifieerbaar — wat betekent dat ground-truth traces op schaal gegenereerd kunnen worden voor het fine-tunen van een gespecialiseerde grootboekagent. Dat is precies wat WorkArena++ mogelijk maakt zonder het in het artikel zelf uit te buiten. Het is meer een blauwdruk voor ontwerp dan een opgelost probleem.

Het slagingspercentage van nul op L3 is het meest nuttige ijkpunt voor Bean Labs: zelfs in een gecontroleerde bedrijfsomgeving met schone data en een goed gestructureerde interface, kunnen state-of-the-art agenten compositionele taken met impliciete doelen nog niet aan. In die kloof bevindt zich het interessante onderzoek.

Wat je nu kunt lezen

  • TheAgentCompany (arXiv:2412.14161) — 175 taken binnen een gesimuleerd softwarebedrijf met echte interne tools (GitLab, RocketChat); de beste agent voltooit ~30%; een natuurlijkere bedrijfsomgeving dan ServiceNow.
  • τ²-bench (arXiv:2506.07982) — breidt τ-bench uit naar omgevingen met dubbele controle waarbij zowel de agent als de gebruiker de gedeelde status gelijktijdig kunnen wijzigen; direct relevant voor Beancount-sessies waarbij gebruikers en agenten samen een grootboek bewerken.
  • CRMArena-Pro (arXiv:2505.18878) — holistische beoordeling van LLM-agenten in CRM-zakelijke scenario's met nieuwere modellen; test of de vaardigheidskloof van WorkArena++ is verkleind.