본문으로 건너뛰기

OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

어제 나는 자율 웹 에이전트의 성공률이 인간의 기준치인 78%에 비해 약 14%에 머물렀다는 WebArena에 관한 글을 읽었습니다. OSWorld(Xie et al., NeurIPS 2024)는 Ubuntu, Windows, macOS 및 실제 GUI 애플리케이션을 포함한 전체 데스크톱 환경에 대해 동일한 질문을 던집니다. 그 답은 오히려 더 겸허해질 수밖에 없으며, 실패 양상은 그 자체로 흥미로울 만큼 독특합니다.

본 논문

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld는 LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC 및 다중 애플리케이션 워크플로우와 같은 실제 데스크톱 애플리케이션을 기반으로 한 369개의 작업 벤치마크를 구축했습니다. 각 작업에는 실행 후 실제 시스템 상태를 확인하는 프로그래밍 방식의 평가 스크립트가 포함되어 있습니다. 문자열 일치 휴리스틱이나 LLM 판정 방식이 아닙니다. 이 설정은 가상 머신을 사용하여 작업이 재현 가능한 상태에서 시작되도록 하며, 세 가지 주요 운영 체제를 모두 다룹니다.

저자들은 GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent 등 다양한 프런티어 모델을 대상으로 네 가지 입력 구성(스크린샷만 사용, 접근성 트리만 사용, 스크린샷과 접근성 트리 병용, 마크 세트(Set-of-Marks, SoM, 모델이 작동하기 전에 상호작용 요소 위에 숫자 라벨을 겹쳐 표시하는 방식))을 테스트했습니다.

핵심 아이디어

  • 익숙하지 않은 작업을 수행하는 인간의 성공률은 72.36%입니다. 제출 시점 기준 최고의 모델은 12.24%를 기록했습니다. 격차는 약 60%포인트입니다.
  • 상위 모델(GPT-4V, Gemini-Pro-Vision)의 스크린샷 전용 성능은 약 5.26%~5.80% 수준입니다. 즉, 구조화된 컨텍스트를 추가하면 성공률이 대략 두 배로 높아지지만, 여전히 87%는 실패합니다.
  • 다중 애플리케이션 워크플로우 작업은 6.57%의 상한선을 기록하며 가장 어려운 카테고리로 꼽혔습니다. 반면 텍스트 기반 인터페이스가 접지(grounding)를 더 쉽게 만드는 OS/CLI 작업은 상대적으로 나았습니다.
  • 접근성 트리와 마크 세트(SoM)가 도움이 되지만, 그 이점은 모델에 따라 다릅니다. 저자들은 관련 없는 구조로 모델을 압도하여 혼란을 초래할 수도 있다고 보고했습니다.
  • 논문 발표 이후의 발전은 매우 빨랐습니다. Agent S(GPT-4o, 계층적 메모리)는 20.58%에 도달했고, RL 기반의 ARPO는 29.9%까지 끌어올렸으며, Agent S3(Simular AI, 2025)는 100단계 설정에서 62.6%를 기록하며 인간의 수준에 근접했다고 주장합니다. 그러나 이러한 성과의 대부분은 OSWorld가 처음에 테스트했던 기본 프롬프트 기반 LLM이 아니라, 더 나은 접지 모델과 RL 미세 조정을 통해 얻은 것입니다.
  • 550건의 실패 사례 분석 결과, 75% 이상이 마우스 클릭 부정확성이었습니다. 즉, 에이전트가 추론은 올바르게 했지만 엉뚱한 픽셀을 클릭한 것입니다. 이는 추론 실패가 아니라 시각운동 접지(visuomotor grounding) 실패입니다.

유효한 점과 그렇지 않은 점

벤치마크 설계는 정말 엄격합니다. 134개의 고유한 평가 스크립트를 사용하여 실제 가상 머신에서 실행 기반으로 평가하는 방식은 많은 에이전트 벤치마크를 괴롭히는 모호한 판단을 제거합니다. 이는 중요한 방법론적 기여이며, 12.24%라는 수치가 신뢰할 만한 이유이기도 합니다.

더 어려운 질문은 12.24%가 실제로 무엇을 측정하느냐는 것입니다. 작업 분포는 정밀한 픽셀 클릭이 매우 중요한 GUI 중심 애플리케이션에 치우쳐 있습니다. CLI에서 완전히 실행되거나 텍스트 파일을 생성하는 Beancount 에이전트는 LibreOffice에서 스프레드시트 서식을 지정하는 에이전트보다 이 벤치마크에서 훨씬 더 나은 성과를 낼 것입니다. 헤드라인 수치는 공간 운동 제어, 다단계 계획, 도메인 지식 등 매우 다른 인지적 요구 사항을 하나로 묶어버리며, 이를 단순히 "에이전트는 컴퓨터를 사용할 수 없다"는 하나의 주장으로 귀결시키는 것은 지나친 단순화입니다.

"마크 세트가 일부 모델을 오도할 수 있다"는 발견은 흥미롭지만 충분히 탐구되지 않았습니다. 논문은 어떤 종류의 작업이나 모델이 도움을 받는지 혹은 피해를 입는지 충분히 설명하지 않은 채 편차만 언급했습니다. 이는 에이전트 UI를 설계하는 실무자들에게 가장 중요한 질문처럼 느껴지지만, 단 한 단락으로 처리되었습니다.

또한 369개의 작업 샘플이 실제 워크플로우의 롱테일을 얼마나 잘 포괄하는지에 대해서도 회의적입니다. 작업들은 필연적으로 검증 가능한 작업에 치우칠 수밖에 없는 연구자들에 의해 큐레이션되었습니다. "이 일관성 없는 가맹점 이름을 정리하라"와 같이 실제 세계의 모호한 회계 작업은 프로그래밍 방식으로 평가하기 어렵고 과소 대표될 가능성이 높습니다.

금융 AI에 이것이 중요한 이유

실패의 75%가 접지 오류라는 발견은 Beancount가 텍스트 레이어에서 작동함에도 불구하고 Beancount 에이전트와 직접적인 관련이 있습니다. 에이전트가 계획은 올바르게 세우지만 실행은 틀린다는 더 깊은 패턴은, 에이전트가 올바른 거래를 생성했지만 엉뚱한 계정에 기록하거나 날짜를 잘못 기입하는 원장 기록 실패와 맞닿아 있습니다. 두 경우 모두 병목 현상은 전략적 추론이 아니라 정밀한 실행입니다.

다중 앱 워크플로우 성능(6.57%)은 Bean Labs에게 가장 냉혹한 수치입니다. 실제 회계 워크플로우는 거의 항상 은행 CSV 내보내기, Beancount 파일, 대조용 스프레드시트, PDF 영수증 등 여러 애플리케이션에 걸쳐 있습니다. GUI 에이전트가 큐레이션된 작업에서도 다중 앱 조정에 처참하게 어려움을 겪는다면, 가져오기, 원장 수정, 보고서 생성을 조율해야 하는 Beancount 에이전트는 픽셀 클릭이 없는 CLI 환경에서도 구조적으로 유사한 도전에 직면하게 됩니다.

논문 이후의 궤적(Agent S3의 62.6%)에서 얻은 좋은 소식은 이러한 장벽이 근본적인 것이 아니라는 점입니다. 더 나은 접지 모델과 RL 미세 조정을 통해 해결 가능합니다. 하지만 그러한 진전에는 18개월의 시간과 RL 학습을 위한 상당한 컴퓨팅 자원이 필요했으며, 이는 Beancount 에이전트가 프롬프트 기반의 프런티어 모델에서 기대할 수 있는 기본 성능 수준이 아니라는 점을 시사합니다.

다음에 읽을거리

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — OSWorld를 동적으로 매개변수화된 작업이 있는 안드로이드 기기로 확장하며, 모바일 Beancount 인터페이스와 관련이 있습니다.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — 150개 이상의 작업으로 OSWorld를 Windows에 맞게 조정했으며, 운영 체제에 관계없이 격차가 지속됨을 독립적으로 검증했습니다.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — 최첨단 성능을 크게 끌어올린 구성형 일반화-특화(generalist-specialist) 아키텍처로, Beancount 다단계 플래너를 설계하기 전에 이 아키텍처를 이해할 가치가 있습니다.