Zum Hauptinhalt springen
AI Agents

Alles Über AI Agents

Ein Artikel
Autonomous AI agent benchmarks and evaluations for real-world task completion

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

OSWorld (NeurIPS 2024) testet multimodale KI-Agenten bei 369 realen Desktop-Aufgaben unter Ubuntu, Windows und macOS – und stellt eine Lücke von 60 Prozentpunkten zwischen dem besten Modell (12,24 %) und menschlicher Leistung (72,36 %) fest, wobei 75 % der Fehler auf visuomotorische Erdungsfehler statt auf logische Fehlleistungen zurückzuführen sind.