AI Agents

Alles Über AI Agents

Ein Artikel

Autonomous AI agent benchmarks and evaluations for real-world task completion

Zurück zu allen Beiträgen Alle Tags anzeigen

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

OSWorld (NeurIPS 2024) testet multimodale KI-Agenten bei 369 realen Desktop-Aufgaben unter Ubuntu, Windows und macOS – und stellt eine Lücke von 60 Prozentpunkten zwischen dem besten Modell (12,24 %) und menschlicher Leistung (72,36 %) fest, wobei 75 % der Fehler auf visuomotorische Erdungsfehler statt auf logische Fehlleistungen zurückzuführen sind.

Erste Schritte mit Beancount.io

Übernehmen Sie die Kontrolle über Ihre Finanzen mit unserem Open-Source-System für die doppelte Buchführung. Starten Sie noch heute Ihr Ledger.

Kostenlos loslegen Preise ansehen

Gebaut mit Transparenz • Versionskontrolliert • KI-gestützt

Alles Über AI Agents

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches