Doorgaan naar hoofdinhoud

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

· 5 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Gisteren las ik WebArena, dat autonome web-agents op ongeveer 14% succes plaatste tegenover een menselijke baseline van 78%. OSWorld (Xie et al., NeurIPS 2024) stelt dezelfde vraag voor de volledige desktop: Ubuntu, Windows, macOS en echte GUI-applicaties. Het antwoord is, zo mogelijk, nog ontnuchterender — en het faalmechanisme is verschillend genoeg om op zichzelf interessant te zijn.

Het onderzoeksrapport

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld bouwt een benchmark van 369 taken gebaseerd op echte desktopapplicaties: LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC en workflows die meerdere applicaties beslaan. Elke taak is voorzien van een programmatisch evaluatiescript dat de werkelijke systeemtoestand controleert na uitvoering — geen heuristiek op basis van tekstovereenkomst, geen LLM-als-rechter. De opzet maakt gebruik van virtuele machines zodat taken starten vanuit een reproduceerbare toestand, en het bestrijkt alle drie de grote besturingssystemen.

De auteurs testen een reeks frontier-modellen — GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent — over vier inputconfiguraties: alleen screenshot, alleen toegankelijkheidsboom (accessibility tree), screenshot plus toegankelijkheidsboom, en Set-of-Marks (SoM, waarbij interactieve elementen worden voorzien van een laag met numerieke labels voordat het model actie onderneemt).

Belangrijke inzichten

  • Mensen slagen bij onbekende taken in 72,36% van de gevallen. Het beste model op het moment van indiening behaalt 12,24%. De kloof is ~60 procentpunten.
  • De prestaties op basis van alleen screenshots voor topmodellen (GPT-4V, Gemini-Pro-Vision) liggen rond de 5,26%–5,80% — wat betekent dat het toevoegen van gestructureerde context het succes ongeveer verdubbelt, maar nog steeds 87% uitval overlaat.
  • Workflows met meerdere applicaties zijn de moeilijkste categorie met een plafond van 6,57%, vergeleken met OS/CLI-taken waar op tekst gebaseerde interfaces de verankering vergemakkelijken.
  • De toegankelijkheidsboom en Set-of-Marks helpen, maar hun voordeel is modelafhankelijk: de auteurs rapporteren dat ze ook verwarring kunnen veroorzaken door het model te overweldigen met irrelevante structuren.
  • De vooruitgang na publicatie is snel gegaan — Agent S (GPT-4o, hiërarchisch geheugen) bereikte 20,58%; het op RL gebaseerde ARPO steeg naar 29,9%; Agent S3 (Simular AI, 2025) claimt 62,6% in de instelling van 100 stappen, waarmee menselijke gelijkwaardigheid wordt benaderd. Maar de meeste van die winsten komen voort uit betere verankeringsmodellen en RL-fijnafstemming, niet uit de basis LLM's via prompts die OSWorld oorspronkelijk testte.
  • Foutenanalyse van 550 mislukkingen: meer dan 75% zijn onnauwkeurigheden in muisklikken — de agent redeneert correct maar klikt op de verkeerde pixel. Dit is geen redeneerfout; het is een visuomotorische verankeringsfout.

Wat standhoudt — en wat niet

Het ontwerp van de benchmark is oprecht rigoureus. Evaluatie op basis van uitvoering op echte VM's met 134 verschillende evaluatiescripts verwijdert de vage subjectieve beoordelingen die veel benchmarks voor agents teisteren. Dat is een significante methodologische bijdrage en het is de reden waarom het getal (12,24%) geloofwaardig is.

De moeilijkere vraag is wat die 12,24% daadwerkelijk meet. De taakverdeling neigt sterk naar GUI-intensieve applicaties waar pixel-nauwkeurig klikken enorm belangrijk is. Een Beancount-agent die volledig in de CLI draait of tekstbestanden genereert, zou waarschijnlijk veel beter presteren op deze benchmark dan een agent die spreadsheet-opmaak doet in LibreOffice. Het hoofdcijfer bundelt zeer verschillende cognitieve eisen — ruimtelijke motorische controle, meerstapsplanning, domeinkennis — en het toeschrijven hiervan aan een enkele claim dat "agents geen computers kunnen gebruiken" is een versimpeling.

De bevinding dat "set-of-marks sommige modellen kan misleiden" is interessant maar onvoldoende onderzocht. Het rapport merkt de variantie op zonder volledig uit te leggen welke soorten taken of modellen worden geholpen versus geschaad. Dat voelt als de belangrijkste vraag voor ontwikkelaars die UI's voor agents ontwerpen, en het krijgt slechts één paragraaf.

Ik ben ook sceptisch over hoe goed de steekproef van 369 taken de 'long tail' van echte workflows dekt. De taken zijn samengesteld door onderzoekers die noodzakelijkerwijs neigen naar taken die verifieerbaar zijn. Echt ambigue boekhoudtaken uit de praktijk — "schoon deze inconsistente namen van tegenpartijen op" — zijn moeilijk programmatisch te evalueren en waarschijnlijk ondervertegenwoordigd.

Waarom dit belangrijk is voor financiële AI

De bevinding dat 75% van de fouten verankeringsfouten zijn, is direct relevant voor Beancount-agents, ook al bevindt Beancount zich op de tekstlaag. Het diepere patroon — agents plannen correct maar voeren incorrect uit — vertaalt zich naar fouten bij het terugschrijven naar het grootboek, waarbij een agent de juiste transactie genereert maar deze naar de verkeerde rekening schrijft of met een verwisselde datum. In beide gevallen is de bottleneck de nauwkeurige uitvoering, niet het strategische redeneren.

De prestaties bij workflows met meerdere apps (6,57%) is het cijfer dat ik het meest ontnuchterend vind voor Bean Labs. Echte boekhoudkundige workflows omvatten bijna altijd meerdere applicaties: een CSV-export van de bank, een Beancount-bestand, een reconciliatie-spreadsheet, een PDF-bon. Als GUI-agents catastrofaal worstelen met coördinatie tussen meerdere apps, zelfs bij geselecteerde taken, dan staat een Beancount-agent die imports, grootboekbewerkingen en rapportagegeneratie moet orkestreren voor een structureel vergelijkbare uitdaging — zelfs in een CLI-context waar geen pixel-klikken aan te pas komt.

Het goede nieuws van het traject na de publicatie (Agent S3 op 62,6%) is dat dit geen fundamentele barrières zijn. Ze zijn oplosbaar met betere verankeringsmodellen en RL-fijnafstemming. Maar die vooruitgang vereiste 18 maanden en aanzienlijke rekenkracht voor RL-training, wat niet de standaard basislijn is die een Beancount-agent kan verwachten van een geprompt frontier-model.

Wat je nu kunt lezen

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — breidt OSWorld uit naar Android-apparaten met dynamisch geparametriseerde taken, relevant voor mobiele Beancount-interfaces.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — past OSWorld aan voor Windows met 150+ taken; valideert onafhankelijk dat de kloof blijft bestaan tussen verschillende besturingssystemen.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — compositionele generalist-specialist architectuur die de state-of-the-art aanzienlijk vooruit helpt; de moeite waard om de architectuur te begrijpen alvorens een Beancount-meerstapsplanner te ontwerpen.