OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%
OSWorld (NeurIPS 2024) сравнява мултимодални AI агенти в 369 реални задачи за десктоп в Ubuntu, Windows и macOS — установявайки разлика от 60 процентни пункта между най-добрия модел (12,24%) и представянето на хората (72,36%), като 75% от неуспехите се дължат на грешки във визуомоторното заземяване, а не на грешки в логическото мислене.
