TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken
TheAgentCompany is de meest realistische benchmark voor bedrijfsagents die ik tot nu toe in deze serie heb gelezen. Het is afkomstig van de groep van Graham Neubig aan CMU en werd ingediend voor NeurIPS 2024, gemotiveerd door een duidelijke kloof: bestaande benchmarks testen geïsoleerde webnavigatie of het oplossen van GitHub-issues, maar echte werktaken vereisen dat agents door interne platforms bladeren, collega's berichten sturen, code schrijven en programma's uitvoeren binnen één enkele taak. Ik lees het nu omdat het het meest gecontroleerde experiment is dat we hebben over de vraag of LLM-agents daadwerkelijk kunnen functioneren als digitale collega's in een relevante omgeving.
Het onderzoek
Xu et al. bouwen een zelfvoorzienend gesimuleerd bedrijf: een lokale werkruimte plus een intranet met echte instanties van GitLab, OwnCloud, Plane (projectbeheer) en RocketChat (team-messaging). De omgeving bevat ook gesimuleerde collega's — NPCs aangestuurd door LLM's — zodat agents berichten kunnen sturen en begeleiding kunnen ontvangen tijdens de uitvoering van een taak. Taken zijn onderverdeeld in zeven rollen: softwareontwikkeling (SDE), projectbeheer, HR, data science, finance, administratie en een algemene categorie "overig". In totaal zijn er 175 taken, samengesteld door 20 informaticastudenten en software-engineers gedurende ongeveer 3.000 manuren over een periode van twee maanden.
De evaluatie maakt gebruik van een checkpointsysteem: elke taak heeft tussentijdse mijlpalen die een fractie van de totale score waard zijn, plus een bonus voor volledige voltooiing. Beoordelaars zijn ofwel deterministisch (controle van bestandsinhoud, code-outputs, omgevingsstatus) of gebaseerd op LLM's (beoordeling van vrije tekst). Alle modellen draaien onder het OpenHands agent-framework, dat code-executie, webbrowsing en terminaltoegang biedt vanuit één configureerbare interface.
Belangrijkste inzichten
- Gemini-2.5-Pro loopt voorop met een volledige voltooiing van 30,3% en een gedeeltelijke score van 39,3%; Claude-3.7-Sonnet volgt met 26,3% / 36,4%; GPT-4o haalt slechts 8,6% / 16,7%; Llama-3.1-405B komt tot 7,4%.
- Het beste model heeft gemiddeld ongeveer 27 stappen nodig en kost meer dan $4 per taak — zelfs voor taken die de auteurs beschrijven als eenvoudiger dan de realiteit op de werkvloer.
- Financiële taken behoren tot de moeilijkste categorieën, samen met administratie en data science; SDE-taken zijn steevast de makkelijkste, ondanks de vereiste gespecialiseerde technische kennis.
- Drie faalwijzen overheersen: het navigeren door complexe web-UI's (vooral de office-suite van OwnCloud), het niet productief kunnen gebruiken van berichten van collega's ("gebrek aan sociale vaardigheden"), en het staken van administratieve taken met meerdere documenten die tijdrovende kruisverwijzingen vereisen.
- De auteurs wijten het voordeel van SDE rechtstreeks aan de bias in trainingsdata: de pre-training van LLM's leunt zwaar op code en GitHub-data vanwege prominente benchmarks en overvloedige publieke trainingssignalen, waardoor modellen veel beter generaliseren naar softwaretaken dan naar HR- of financiële workflows.
Wat houdt stand — en wat niet
Het ontwerp van de omgeving is oprecht indrukwekkend. Door echte instanties van GitLab, OwnCloud en RocketChat te gebruiken in plaats van gesimuleerde stubs, worden agents geconfronteerd met authentieke UI-complexiteit — echte pop-ups, authenticatie-flows en randgevallen. De op checkpoints gebaseerde gedeeltelijke score is ook de juiste keuze: een binaire succes/faal-beoordeling zou de meeste taken uniform hopeloos doen lijken, waardoor het onzichtbaar blijft waar agents daadwerkelijk vooruitgang boeken.
Dat gezegd hebbende, zijn er enkele zwakke punten die aandacht verdienen. Het meest kritisch is het ontbreken van een nulmeting van menselijke prestaties. De auteurs erkennen dit — door beperkte middelen was het niet mogelijk om menselijke tijden of succespercentages te verzamelen — wat betekent dat we geen vergelijkingskader hebben. Een voltooiingspercentage van 30% voor agents klinkt slecht, maar zonder te weten of een mens 20 minuten of 3 uur aan dezelfde taak zou besteden, of dat sommige taken inherent ambigu zijn, is het getal moeilijk te contextualiseren.
De categorie finance bevat slechts 12 taken. Dat is te weinig om robuuste conclusies te trekken over specifieke tekortkomingen in de financiële sector. Zijn agents slechter in finance door een specifieke eigenschap van financieel redeneren, of omdat de financiële taken toevallig meer navigatie in OwnCloud-documenten vereisen? Het onderzoek kan dit op deze schaal niet onderscheiden, en de auteurs doen ook geen poging daartoe.
De auteurs erkennen bovendien dat taken "over het algemeen aan de eenvoudige kant zijn vanwege de noodzaak om automatisch te evalueren met programma's en testcases." De moeilijkste echte boekhoudkundige of financiële taken — het opstellen van een jaarafsluiting op basis van inconsistente brongegevens, het signaleren van nalevingskwesties (compliance) of het produceren van een managementrapportage over meerdere grootboekperiodes — zijn nagenoeg onmogelijk automatisch te evalueren. De benchmark bevat waarschijnlijk te weinig van de taken die het belangrijkst zijn voor autonome financiële agents.
Waarom dit belangrijk is voor finance AI
De resultaten hier zijn ontnuchterend op een nuttige manier. Een voltooiingspercentage van 30% op taken die de auteurs vereenvoudigd noemen, betekent dat autonome agents nog lang niet operationeel inzetbaar zijn voor echte boekhoudkundige workflows. De categorie finance is specifiek zwak, en de dominante faalwijzen — complexe UI's, het ophalen van informatie uit meerdere documenten, haperende communicatie met menselijke tegenhangers — zijn precies de vaardigheden die een Beancount-automatiseringsagent nodig zou hebben: gegevens ophalen uit documentopslag, transacties kruislings controleren in rapporten en verhelderende vragen stellen voordat gegevens definitief worden weggeschreven.
De kosten van $4 per taak voor het beste model zijn een bepalende factor. Tegen dat tarief zou het inzetten van een agent voor een routineuze maandafsluiting met tientallen subtaken honderden dollars kosten, zonder enige garantie op betrouwbaarheid. Het patroon van Gemini-2.0-Flash om verliezen vroegtijdig te beperken — het behalen van een gedeeltelijke score van 19,0% voor minder dan $1 per taak — suggereert dat er echte technische waarde zit in weten wanneer te stoppen en te escaleren, in plaats van tokens te verspillen aan een doodlopend spoor.
De NPCs die als gesimuleerde collega's fungeren, zijn een interessant concept dat direct aansluit op de realiteit van Beancount: agents die gebruikersfeedback negeren en doorgaan met onjuiste aannames zijn gevaarlijker dan agents die stoppen en vragen stellen. De bevinding van de benchmark dat huidige modellen er niet in slagen nuttige informatie uit berichten van collega's te halen, zou een direct uitgangspunt moeten zijn voor het ontwerp van elke agent die tijdens een sessie interactie heeft met een menselijke accountant.
Wat nu te lezen
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — het agent-framework dat ten grondslag ligt aan TheAgentCompany; arXiv:2407.16741, ICLR 2025. Inzicht in de CodeAct + browsing-architectuur van OpenHands verduidelijkt welke agent-mogelijkheden de basis vormen en wat TheAgentCompany daadwerkelijk test.
- DocFinQA: A Long-Context Financial Reasoning Dataset — breidt 7.437 FinQA-vragen uit naar volledige SEC-deponeringen van gemiddeld 123.000 woorden; arXiv:2401.06915, ACL 2024. Test direct het financiële redeneren met lange documenten dat de 12 financiële taken van TheAgentCompany niet adequaat kunnen dekken.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Een overzicht uit 2025 van het landschap van agent-evaluatie dat TheAgentCompany in context plaatst naast WebArena, OSWorld en SWE-bench, en onderzoekt hoe keuzes in het benchmarkontwerp bepalen wat we kunnen concluderen over de capaciteiten van agents.
