Doorgaan naar hoofdinhoud

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Na het lezen van de evaluatie door τ-bench over tool-calling agents in de retail- en luchtvaartsector, wilde ik me verdiepen in bedrijfssoftware — het terrein waar Beancount-achtige agents daadwerkelijk moeten opereren. WorkArena (Drouin et al., ServiceNow Research, 2024) benchmarkt LLM-webagents op 33 echte taken binnen het ServiceNow-bedrijfsplatform. Dit maakt het de meest directe bestaande test om te zien of huidige modellen echte workflows van kenniswerkers kunnen automatiseren in plaats van synthetische speelgoedscenario's.

Het artikel

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

"WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?" introduceert een benchmark van 33 taken en 19.912 unieke instanties, afkomstig van het ServiceNow-softwareplatform voor bedrijven. De taken bestrijken zes categorieën die kenniswerkers dagelijks uitvoeren: het filteren en sorteren van lijsten, het invullen van formulieren, het doorzoeken van kennisbanken, het bestellen uit servicecatalogi, het lezen van dashboards en het navigeren door menu's. Naast de benchmark geven de auteurs BrowserGym vrij, een evaluatie-omgeving die agents rijke multimodale observaties biedt — HTML, toegankelijkheidsbomen, screenshots — plus een gestandaardiseerde actieruimte voor webinteracties.

De kernvraag van het artikel is of huidige LLM's de gestructureerde, meerstaps, door de UI beperkte workflows aankunnen die echte bedrijfssoftware vereist. Dit zijn geen open zoekopdrachten of enkelvoudige vraag-antwoordsessies; het zijn doelgerichte reeksen van klikken, formulierinvoer en filterbewerkingen die verifieerbare sporen achterlaten in een live systeem. Die eigenschap van verificatie op basis van de systeemstatus is wat WorkArena wezenlijk anders maakt dan de meeste agent-benchmarks, en het is exact de eigenschap waaraan een Beancount-schrijfagent zou moeten voldoen.

Belangrijkste inzichten

  • GPT-4o bereikt in totaal 42,7% op WorkArena met chain-of-thought prompting; GPT-3.5-Turbo haalt slechts 6,1% en het open-source Llama3-70B-Instruct blijft steken op 17,9% — een gat van 25 punten tussen de toonaangevende gesloten en open-source modellen.
  • Lijstfiltertaken zijn een onneembare muur: 0% voor elk model. De lijst-widget van ServiceNow gebruikt niet-standaard HTML waar geen van de geteste agents betrouwbaar mee kon communiceren. Sorteren is bijna even slecht: GPT-4o behaalt slechts 10% op lijst-sorteertaken.
  • Servicecatalogustaken zijn verrassend goed te doen: GPT-4o bereikt 77,8% op de negen servicecatalogustaken, waar de UI conventioneler is en de vereiste acties nauw aansluiten bij patronen voor het invullen van formulieren die het model waarschijnlijk tijdens de training heeft gezien.
  • Multimodale observaties helpen nauwelijks. Het toevoegen van screenshots aan de observaties van GPT-4o leverde "zeer kleine prestatieverbeteringen" op, wat suggereert dat de flessenhals het begrijpen van de UI-structuur is, en niet de afwezigheid van visuele input.
  • Chain-of-thought is essentieel. Het verwijderen ervan doet Llama3-70B met ongeveer 10 punten dalen op WorkArena, wat bevestigt dat meerstaps webtaken expliciete tussenstappen in de redenering vereisen, en niet alleen actievoorspelling.
  • Geheugenmechanismen werkten averechts. Het inschakelen van een use_think_history vlag zorgde ervoor dat agents "vast bleven houden aan beslissingen die in vroege tijdstappen waren genomen, zelfs foutieve" — een concreet voorbeeld van rigide toewijding die zich voordoet als planning.

Wat overeind blijft — en wat niet

De meest waardevolle eigenschap van de benchmark is dat deze draait tegen een live ServiceNow-instantie: succes wordt bepaald door de vraag of de status van het systeem daadwerkelijk correct is gewijzigd, niet door tekstuele vergelijking met een verwachte output. Dat maakt de 0% op lijstfiltertaken bijzonder pijnlijk — er is geen ruimte om fouten te verbergen. De variëteit aan taken is ook representatief: de zes categorieën omvatten de breedte van waar kenniswerkers tijd aan besteden, geen zorgvuldig geselecteerde demonstratietaken.

Wat ik minder bevredigend vind, is de behandeling van foutmodi. Het artikel stelt vast dat exotische HTML-structuren, geneste iFrames en shadow DOM's agents breken, maar onderzoekt niet systematisch welke structurele kenmerken verantwoordelijk zijn of in welke verhouding. Het probleem van de DOM-grootte — HTML-bomen variërend van 40k tot 500k tokens — wordt genoemd maar niet diepgaand geanalyseerd: we weten niet of samenvatting, chunking of observaties op basis van alleen de toegankelijkheidsboom de prestaties zouden herstellen. De architectuur met één agent wordt ook nooit vergeleken met een opgesplitste multi-agent opzet (bijvoorbeeld een scheiding tussen selector en uitvoerder), dus het is onduidelijk of het 0% resultaat bij lijstfilters een interfaceprobleem, een planningsprobleem, of beide is.

Er is ook een vraag over de validiteit van het platform. ServiceNow is een specifieke zakelijke softwarestack met eigenzinnige UI-patronen. De resultaten vertellen ons veel over ServiceNow-agents en iets minder over zakelijke webagents in het algemeen. Het generaliseren van het falen bij lijstfilters naar bijvoorbeeld een beanquery-interface of een spreadsheet-tool vereist onafhankelijk bewijs.

Waarom dit belangrijk is voor finance AI

De WorkArena-resultaten zijn een ijkpunt waar ik steeds naar terugkeer voor de Beancount-automatiseringsagenda. Het patroon van falen is leerzaam: agents presteren goed op taken die lijken op webformulieren (servicecatalogus, 77,8%) en storten in bij taken die nauwkeurige interactie vereisen met gestructureerde, niet-standaard UI-widgets (lijstfiltering, 0%). Een Beancount-agent die grootboekmutaties uitvoert, zou voor een gemengd beeld komen te staan: het gedeelte van natuurlijke taal naar transactie lijkt op de taken voor het invullen van formulieren waar de prestaties redelijk zijn; maar de onderdelen voor opvragen, filteren en verzoenen (reconciliation) — het vinden van specifieke boekingen, sorteren op datum, toepassen van rekeningfilters — lijken veel meer op de lijsttaken waar alles spaak loopt.

Het artikel versterkt ook een les uit de logs van CRITIC en Reflexion: externe verificatie is belangrijker dan interne redenering. WorkArena-taken slagen of falen op basis van de systeemstatus, en die zuivere 'ground truth' is wat de benchmark eerlijk maakt. Voor Beancount-schrijfagents pleit dit sterk voor een ontwerp waarbij elke doorgevoerde wijziging in het grootboek wordt geverifieerd tegen de Beancount Python API voordat deze wordt geaccepteerd, in plaats van alleen gecontroleerd door de eigen redenering van de agent. Het plafond van 42,7% voor het beste model op ICML 2024 suggereert dat zelfs voor conventionele zakelijke UI-taken, het gat tussen "af en toe nuttig" en "betrouwbaar automatiseerbaar" nog steeds groot is.

Wat je hierna kunt lezen

  • WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — de vervolgstudie van hetzelfde ServiceNow-team met 682 compositorische taken die planning, rekenkundig redeneren en het ophalen van informatie uit meerdere documenten vereisen; geeft direct antwoord op de vraag of het opschalen van de taakcomplexiteit nieuwe foutmodi blootlegt buiten de UI-interactiemuur.
  • WebArena (arXiv:2307.13854, ICLR 2024) — de bijbehorende algemene webagent-benchmark (812 taken over e-commerce, forums, code-hosting, CMS) waar GPT-4 slechts 14,41% behaalt tegenover 78% menselijke prestaties; plaatst de WorkArena-cijfers in het bredere landschap van webagents.
  • OSWorld (arXiv:2404.07972, NeurIPS 2024) — breidt de evaluatie van bedrijfsautomatisering uit naar volledige desktopomgevingen inclusief echte applicaties (LibreOffice, VS Code, Chrome); de meest uitgebreide test om te zien of de WorkArena-foutmodi UI-specifiek zijn of een dieper tekort in agent-competentie weerspiegelen.