Doorgaan naar hoofdinhoud
Enterprise Software

Alles Over Enterprise Software

3 artikelen
Enterprise software automation, web agents, and knowledge work task research

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

WorkArena++ (NeurIPS 2024) benchmarkt 682 compositionele bedrijfstaken verdeeld over drie moeilijkheidsgraden. GPT-4o lost 2,1% hiervan op, terwijl mensen 93,9% oplossen. Dit laat precies zien waarom de huidige AI-agenten falen bij kenniswerk met impliciete doelen en waarom die kloof cruciaal is voor autonome boekhoudautomatisering.