Перейти до основного вмісту
AI Agents

Все про AI Agents

1 стаття
Autonomous AI agent benchmarks and evaluations for real-world task completion

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реальних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.