AI Agents

모든 것에 대하여 AI Agents

1개의 기사

Autonomous AI agent benchmarks and evaluations for real-world task completion

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함

OSWorld (NeurIPS 2024)는 Ubuntu, Windows, macOS 전반에 걸친 369개의 실제 데스크톱 작업에서 멀티모달 AI 에이전트를 벤치마킹했습니다. 그 결과, 최고 모델(12.24%)과 인간의 성과(72.36%) 사이에 60%포인트의 격차가 있음을 발견했으며, 실패의 75%는 추론 실패가 아닌 시각운동 접지(visuomotor grounding) 오류 때문인 것으로 나타났습니다.

Beancount.io 시작하기

오픈 소스 복식부기 시스템으로 자산을 관리하세요. 오늘 바로 원장 작성을 시작해 보세요.

무료로 시작하기 요금제 보기

투명한 설계 • 버전 관리 지원 • AI 기반

모든 것에 대하여 AI Agents

OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지