OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%
OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реа льних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.
