AI Agents

Alles Over AI Agents

Eén artikel

Autonomous AI agent benchmarks and evaluations for real-world task completion

Terug naar Alle Berichten Bekijk alle tags

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

OSWorld (NeurIPS 2024) benchmarkt multimodale AI-agents op 369 echte desktoptaken in Ubuntu, Windows en macOS — met een kloof van 60 procentpunten tussen het beste model (12,24%) en menselijke prestaties (72,36%), waarbij 75% van de fouten wordt herleid naar visuomotorische verankeringsfouten in plaats van redeneerfouten.

Aan de slag met Beancount.io

Neem de controle over uw financiën met ons open-source systeem voor dubbel boekhouden. Start vandaag nog uw grootboek.

Gratis aan de slag Bekijk prijzen

Gebouwd met transparantie • Versiebeheerd • AI-gestuurd

Alles Over AI Agents

OSWorld: Desktop AI-agents slagen in 12% van de taken waar mensen in 72% slagen

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch