본문으로 건너뛰기

WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

WebArena의 812개 작업 벤치마크는 어제 다루었던 WorkArena의 직접적인 전신입니다. 이 두 가지를 이어서 읽어보면 중요한 차이점이 명확해집니다. WorkArena가 단일 플랫폼(ServiceNow)에서의 기업 지식 업무를 측정한다면, WebArena는 현실적인 오픈 소스 소프트웨어 전반에서 일반적인 웹 에이전트의 역량 최저선(capability floor)을 설정합니다. 나중에 브라우저 환경에서 작동하게 될 Beancount 에이전트를 구상하기 전에, 그 최저선이 정확히 어디인지 이해하고 싶었습니다.

논문 소개

2026-06-14-webarena-realistic-web-environment-autonomous-agents

Zhou 등(ICLR 2024, arXiv:2307.13854)은 네 개의 자체 호스팅 웹사이트(Magento 이커머스 스토어, Postmill 소셜 포럼, GitLab 인스턴스, Magento CMS 관리자 포털)와 OpenStreetMap 미러 및 오프라인 위키피디아 사본을 활용한 812개 작업의 재현 가능한 벤치마크인 WebArena를 소개합니다. MiniWoB++의 합성된 단순 작업들과 달리, WebArena의 모든 사이트는 실제 오픈 소스 소프트웨어를 기반으로 운영되며 실질적인 규모를 갖추고 있습니다. 약 90,000개의 제품, 127,000개 이상의 게시물이 있는 95개의 서브레딧, 1,000개의 개발자 계정에 걸친 300개의 Git 리포지토리 등이 포함됩니다. 작업은 정보 탐색, 사이트 내비게이션, 콘텐츠/구성 변경의 세 가지 범주로 나뉘며 기능적 정확성(functional correctness)을 기준으로 평가됩니다. 즉, 에이전트가 예상된 행동 순서를 따랐는지가 아니라, 의도한 결과가 데이터베이스에 나타나거나 정답과 일치하는지를 평가합니다.

핵심 아이디어

  • GPT-4는 14.41%에 도달하며, 인간은 78.24%에 도달합니다. 그 격차는 63.8% 포인트에 달합니다. GPT-3.5는 8.75%를 기록했고, Google Text-Bison-001 베이스라인은 5.05%에 불과했습니다. 생각의 사슬(Chain-of-thought) 프롬프팅은 GPT-4의 점수를 약 2.3 포인트 높여주었지만, 근본적인 변화를 일으키지는 못했습니다.
  • 가장 흔한 실패는 가짜 불가능성(false impossibility)입니다. GPT-4는 수행 가능한 작업의 약 54.9%(812개 중 428개)를 실행 불가능한 것으로 잘못 판단하여, 시도조차 하지 않고 [N/A]를 반환했습니다. 이것이 가장 지배적인 실패 모드이며, 노이즈 섞인 행동 순서나 도구 오류보다 더 큰 문제였습니다.
  • 경로 재현이 아닌 기능적 정확성. 평가는 정확한 일치, 필수 키워드 확인, LLM 기반 퍼지 매칭, 데이터베이스 쿼리나 JavaScript를 통한 프로그래밍 방식 검증 등 네 가지 증거 유형을 확인합니다. 이는 메트릭을 유연하게 만들지만, 여전히 모호한 작업 사양에는 취약할 수 있습니다.
  • 컨테이너화된 자체 호스팅을 통한 재현성. 네 개의 사이트 모두 Docker 컨테이너로 제공되며, 이는 이후의 벤치마크(WorkArena, OSWorld)들이 복제하는 방식이 되었습니다. 상태를 초기화하고 동일한 시작 조건을 보장할 수 있는데, 이는 라이브 웹 스크래핑으로는 불가능한 일입니다.
  • 작업 템플릿을 통한 단순 암기 방지. 241개의 템플릿에서 812개의 인스턴스화된 작업(각 3.3개의 변형)이 생성됩니다. 이는 어느 정도 도움이 되지만, 모델이 웹 내비게이션 원리보다는 템플릿 패턴을 학습하는 것을 완전히 막지는 못합니다.
  • 실제 DOM의 복잡성은 MiniWoB++보다 수십 배 더 큽니다. 일반적인 WebArena 페이지는 수천 개의 토큰으로 직렬화되며, 복잡한 포털 뷰의 경우 DOM 트리가 100,000 토큰을 초과한다는 관련 연구 결과도 있습니다.

유지되는 것과 그렇지 않은 것

핵심 방법론은 타당합니다. 실제 소프트웨어, 결과 기반 평가, 재현 가능한 환경은 정확히 옳은 방향입니다. 14.41%라는 수치는 독립적인 재현 실험을 통해 신뢰성이 입증되었으며, 실패 분류(가짜 불가능성, 루프 동작, 소심한 거부) 역시 이후의 여러 논문에서 확인되었습니다.

하지만 한계점도 분명합니다. 첫째, 241개 템플릿에서 파생된 812개 작업은 벤치마크가 유한하고 체계적으로 공략 가능하다는 것을 의미합니다. 템플릿 패턴을 암기한 에이전트는 일반화되지 않고 과적합될 수 있습니다. WebArena Verified(2024–2025)는 잘못된 평가 체크를 발견하고 수정했는데, 이는 초기 14.41%라는 수치의 일부가 순수한 역량이 아닌 평가 노이즈를 반영했을 수 있음을 시사합니다. 둘째, 네 가지 웹사이트 유형(이커머스, 포럼, 코드 호스팅, CMS)은 그럴듯하지만 웹의 대표적인 샘플은 아닙니다. 기업용 SaaS, 복잡한 양식이 많은 정부 포털, 뱅킹 인터페이스 등은 포함되어 있지 않습니다. 셋째, 이 벤치마크는 안전성과 신뢰성을 완전히 무시합니다. "이 게시물 삭제" 작업을 수행할 때, 올바른 게시물을 삭제하든 다른 열 개를 더 삭제하든 성공하면 동일한 점수를 받습니다. ST-WebAgentBench(2024)가 바로 이 공백을 메우기 위해 설계되었습니다.

가장 흥미롭고 과소평가된 결과는 가짜 불가능성 발견입니다. 이는 LLM이 불확실성 하에서 행동을 피하도록 보정되어 있음을 시사합니다. 인간의 피드백으로 훈련된 모델에게는 합리적인 사전 확률일 수 있으나, 행동하지 않는 것 자체가 비용이 많이 드는 오류가 되는 에이전트 작업에서는 이러한 보수적인 보정이 오히려 독이 됩니다.

이것이 금융 AI에 중요한 이유

14.41%와 78.24% 사이의 간극은 특화된 엔지니어링 없이 오늘날의 Beancount 브라우저 에이전트가 달성할 수 있는 수준을 직접적으로 보여줍니다. GPT-4가 제품 주문, GitLab 이슈 생성, 포럼 게시물 작성과 같은 일상적인 웹 작업을 안정적으로 수행하지 못한다면, 감독 없이 Fava 웹 UI를 조작하도록 신뢰할 수는 없습니다. 이것은 절망적인 소식이 아닙니다. 오히려 SWE-agent가 코드 편집에서 보여주었던 것처럼, 특수 목적용 인터페이스와 구조화된 행동 공간이 필요하다는 동기를 부여합니다. 핵심 교훈은 일반적인 작업에서 측정된 원시 LLM 역량이 중요한 것이 아니라, 에이전트를 지원하도록 환경이 얼마나 잘 설계되었느냐가 중요하다는 것입니다.

가짜 불가능성 문제는 회계 분야에서도 직접적으로 나타납니다. 확인하는 대신 "이 거래가 중복인지 확인할 수 없습니다"라고 반환하는 에이전트는 보수적이지만 틀린 방식으로 실패하고 있는 것입니다. 쓰기 작업을 수행하는(Write-back) 에이전트에게는 기권하기보다 확답을 강제하는 명시적인 실행 가능성 점검 단계가 필요하며, 잘못된 확답을 복구할 수 있는 롤백 안전망이 병행되어야 합니다.

Beancount의 경우, WebArena의 CMS 및 관리자 포털 부분(Magento admin)이 Fava 웹 UI와 구조적으로 가장 유사합니다. 복잡한 양식, 중첩된 내비게이션, 세션 간에 유지되는 상태를 가진 다중 페이지 관리자 인터페이스이기 때문입니다. 해당 클래스의 작업에 대한 14.41%라는 상한선을 우리가 더 나은 결과물을 보여주기 전까지의 기본 가정으로 삼아야 할 것입니다.

다음으로 읽을 거리

  • VisualWebArena (Koh 등, 2024, arXiv:2401.13649) — 스크린샷을 사용하는 멀티모달 에이전트로 WebArena를 확장합니다. 모든 관련 상태가 DOM에 있는 것은 아니기 때문에 Fava에도 중요합니다.
  • OSWorld (Xie 등, NeurIPS 2024, arXiv:2404.07972) — 전체 데스크톱 환경 벤치마크입니다. 최고 성능의 멀티모달 모델이 12.24%인 반면 인간은 72.36%를 기록하여, 브라우저를 넘어 GUI 자동화에서의 역량 격차를 보여줍니다.
  • ST-WebAgentBench (arXiv:2410.06703) — WebArena의 안전성 공백을 직접적으로 다루며, 웹 에이전트가 작업을 수행하는 동안 정책 제약 조건을 준수하는지 측정합니다.