AI Agents

Всичко за AI Agents

Една статия

Autonomous AI agent benchmarks and evaluations for real-world task completion

Обратно към всички публикации Вижте всички етикети

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%

OSWorld (NeurIPS 2024) сравнява мултимодални AI агенти в 369 реални задачи за десктоп в Ubuntu, Windows и macOS — установявайки разлика от 60 процентни пункта между най-добрия модел (12,24%) и представянето на хората (72,36%), като 75% от неуспехите се дължат на грешки във визуомоторното заземяване, а не на грешки в логическото мислене.

Всичко за AI Agents

OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси