본문으로 건너뛰기

WorkArena: LLM 웹 에이전트가 실제 기업 지식 업무에서 보여주는 성능

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

소매 및 항공 도메인에서의 도구 호출(tool-calling) 에이전트에 대한 τ-bench의 평가를 읽은 후, 저는 Beancount 스타일의 에이전트가 실제로 작동해야 하는 영역인 기업용 소프트웨어 분야를 살펴보고 싶었습니다. WorkArena(Drouin 등, ServiceNow Research, 2024)는 ServiceNow 기업용 플랫폼 내의 33개 실제 작업을 기반으로 LLM 웹 에이전트를 벤치마킹하며, 이는 현재 모델이 가공된 장난감 시나리오가 아닌 실제 지식 노동자의 워크플로우를 자동화할 수 있는지에 대한 가장 직접적인 테스트입니다.

논문 요약

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

"WorkArena: 웹 에이전트는 일반적인 지식 업무 해결에 얼마나 능숙한가?(How Capable Are Web Agents at Solving Common Knowledge Work Tasks?)"는 ServiceNow 기업용 소프트웨어 플랫폼에서 추출한 33개의 작업과 19,912개의 고유 인스턴스로 구성된 벤치마크를 소개합니다. 이 작업들은 리스트 필터링 및 정렬, 양식 채우기, 지식 베이스 검색, 서비스 카탈로그 주문, 대시보드 읽기, 메뉴 탐색 등 지식 노동자가 실제로 매일 수행하는 6개 카테고리를 다룹니다. 벤치마크와 함께 저자들은 에이전트에게 HTML, 접근성 트리(accessibility trees), 스크린샷과 같은 풍부한 멀티모달 관찰 정보와 웹 상호작용을 위한 표준화된 액션 공간을 제공하는 평가 하네스인 BrowserGym을 출시했습니다.

이 논문의 핵심 질문은 현재의 LLM이 실제 기업용 소프트웨어가 요구하는 구조화되고 다단계이며 UI 제약이 있는 워크플로우를 처리할 수 있는지 여부입니다. 이는 개방형 검색 작업이나 단일 턴 QA가 아니라, 라이브 시스템에서 검증 가능한 흔적을 남기는 클릭, 양식 입력, 필터 작업의 목표 지향적 시퀀스입니다. 이러한 '시스템 상태로부터의 검증' 속성은 WorkArena를 대부분의 에이전트 벤치마크와 의미 있게 차별화하는 요소이며, 이는 Beancount 쓰기(write-back) 에이전트가 충족해야 할 속성과 정확히 일치합니다.

핵심 아이디어

  • GPT-4o는 생각의 사슬(chain-of-thought) 프롬프팅을 통해 WorkArena에서 전체 42.7%에 도달했습니다. 반면 GPT-3.5-Turbo는 6.1%에 그쳤고, 오픈 소스인 Llama3-70B-Instruct는 17.9%를 기록하여 최첨단 상용 모델과 오픈 소스 모델 사이에 25포인트의 격차가 있음을 보여주었습니다.
  • 리스트 필터링 작업은 완벽한 장벽이었습니다: 모든 모델에서 0%를 기록했습니다. ServiceNow의 리스트 위젯은 테스트된 어떤 에이전트도 안정적으로 상호작용할 수 없는 비표준 HTML을 사용했습니다. 정렬 작업도 거의 비슷하게 좋지 않았습니다. GPT-4o는 리스트 정렬 작업에서 단 10%의 성공률만을 기록했습니다.
  • 서비스 카탈로그 작업은 의외로 다루기 쉬웠습니다. GPT-4o는 9개의 서비스 카탈로그 작업에서 77.8%의 성공률을 기록했는데, 이곳의 UI는 더 전통적이며 필요한 작업들이 모델이 학습 과정에서 보았을 법한 양식 채우기 패턴과 밀접하게 일치하기 때문입니다.
  • 멀티모달 관찰은 거의 도움이 되지 않았습니다. GPT-4o의 관찰 정보에 스크린샷을 추가했을 때 "매우 미미한 성능 향상"만 나타났으며, 이는 병목 현상이 시각적 입력의 부재가 아니라 UI 구조에 대한 이해에 있음을 시사합니다.
  • 생각의 사슬(Chain-of-thought)이 성능을 지탱합니다. 이를 제거하면 Llama3-70B의 성능이 WorkArena에서 약 10포인트 하락하며, 다단계 웹 작업에는 단순히 다음 행동을 예측하는 것이 아니라 명시적인 중간 추론이 필요함을 확인시켜 주었습니다.
  • 메모리 메커니즘이 역효과를 냈습니다. use_think_history 플래그를 활성화하면 에이전트가 "초기 단계에서 내린 결정, 심지어 잘못된 결정도 고수하는" 경향을 보였는데, 이는 경직된 집착이 계획 수립으로 오인된 구체적인 사례입니다.

유효한 점과 그렇지 않은 점

이 벤치마크의 가장 가치 있는 속성은 실제 ServiceNow 인스턴스를 대상으로 실행된다는 점입니다. 성공 여부는 예상 출력과의 문자열 일치가 아니라 시스템 상태가 실제로 올바르게 변경되었는지에 따라 결정됩니다. 이 때문에 리스트 필터링 작업에서의 0% 결과는 숨을 곳 없는 뼈아픈 수치입니다. 작업의 다양성 또한 진정으로 대표성이 있습니다. 6개의 카테고리는 지식 노동자가 시간을 보내는 광범위한 영역을 포괄하며, 보여주기식으로 엄선된 작업이 아닙니다.

다소 아쉬운 점은 실패 모드에 대한 처리입니다. 논문은 특이한 HTML 구조, 중첩된 iFrame, 섀도 DOM(shadow DOM)이 에이전트를 방해한다는 점을 식별했지만, 어떤 구조적 특징이 어느 정도의 비율로 책임이 있는지 체계적으로 분석하지는 않았습니다. 4만 개에서 50만 개의 토큰에 이르는 DOM 크기 문제도 언급은 되었으나 깊이 있게 분석되지 않았습니다. 요약, 청킹(chunking) 또는 접근성 트리 전용 관찰이 성능을 회복시킬 수 있을지 우리는 알 수 없습니다. 단일 에이전트 아키텍처 또한 분해된 멀티 에이전트 설정(예: 선택기/실행기 분리)과 비교되지 않았으므로, 리스트 필터링 0% 결과가 인터페이스 문제인지, 계획 문제인지, 혹은 둘 다인지 불분명합니다.

또한 플랫폼의 타당성에 대한 의문도 제기할 만합니다. ServiceNow는 독특한 UI 패턴을 가진 특정 기업용 소프트웨어 스택입니다. 결과는 ServiceNow 에이전트에 대해서는 많은 것을 알려주지만, 일반적인 기업용 웹 에이전트에 대해서는 상대적으로 덜 알려줍니다. 리스트 필터링 실패를 beanquery 인터페이스나 스프레드시트 도구로 일반화하려면 독립적인 증거가 필요합니다.

금융 AI에 이것이 중요한 이유

WorkArena 결과는 제가 Beancount 자동화 의제를 다룰 때 계속해서 되돌아보게 되는 기준점입니다. 실패 패턴은 시사하는 바가 큽니다. 에이전트는 웹 양식처럼 보이는 작업(서비스 카탈로그, 77.8%)은 잘 수행하지만, 구조화된 비표준 UI 위젯과의 정밀한 상호작용이 필요한 작업(리스트 필터링, 0%)에서는 무너집니다. 장부 기입을 수행하는 Beancount 에이전트는 복합적인 상황에 직면할 것입니다. 자연어를 트랜잭션으로 변환하는 부분은 성능이 괜찮은 양식 채우기 작업과 유사하지만, 특정 항목 찾기, 날짜별 정렬, 계정 필터 적용과 같은 쿼리, 필터링 및 대조 작업은 모든 것이 무너졌던 리스트 작업과 훨씬 더 닮아 있습니다.

이 논문은 또한 CRITIC 및 Reflexion 로그에서 얻은 교훈을 강화합니다. 내부 추론보다 외부 검증이 더 중요하다는 것입니다. WorkArena 작업은 시스템 상태에 따라 성공과 실패가 갈리며, 이러한 깨끗한 실측 자료(ground truth)가 벤치마크를 정직하게 만듭니다. Beancount 쓰기 에이전트의 경우, 이는 모든 확정된 장부 변경사항이 에이전트 자신의 추론에 의해서만 확인되는 것이 아니라, 수락되기 전에 Beancount Python API를 통해 검증되어야 하는 설계의 중요성을 강력하게 뒷받침합니다. ICML 2024에서 최고 모델이 보여준 42.7%의 상한선은 전통적인 기업 UI 작업에서조차 "가끔 유용한" 수준에서 "안정적으로 자동화 가능한" 수준 사이의 간극이 여전히 크다는 것을 시사합니다.

추가로 읽어볼 내용

  • WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — 동일한 ServiceNow 팀의 후속 연구로, 계획, 산술 추론 및 다중 문서 검색이 필요한 682개의 복합 작업을 포함합니다. 작업 복잡성을 확장하는 것이 UI 상호작용의 벽을 넘어 새로운 실패 모드를 드러내는지에 대해 직접적으로 답합니다.
  • WebArena (arXiv:2307.13854, ICLR 2024) — 동반되는 범용 웹 에이전트 벤치마크(전자상거래, 포럼, 코드 호스팅, CMS에 걸친 812개 작업)로, GPT-4가 인간의 78% 성능 대비 단 14.41%만을 달성했습니다. WorkArena의 수치를 더 넓은 웹 에이전트 환경에서 조망할 수 있게 해줍니다.
  • OSWorld (arXiv:2404.07972, NeurIPS 2024) — 기업 자동화 평가를 실제 애플리케이션(LibreOffice, VS Code, Chrome)을 포함한 전체 데스크톱 컴퓨터 환경으로 확장합니다. WorkArena의 실패 모드가 UI 특화적인 것인지, 아니면 더 깊은 에이전트 역량의 결여를 반영하는지에 대한 가장 포괄적인 테스트입니다.