OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함
OSWorld (NeurIPS 2024)는 Ubuntu, Windows, macOS 전반에 걸친 369개의 실제 데스크톱 작업에서 멀티모달 AI 에이전트를 벤치마킹했습니다. 그 결과, 최고 모델(12.24%)과 인간의 성과(72.36%) 사이에 60%포인트의 격차가 있음을 발견했으며, 실패의 75%는 추론 실패가 아닌 시각운동 접지(visuomotor grounding) 오류 때문인 것으로 나타났습니다.
