WorkArena: LLM 웹 에이전트가 실제 기업 지식 업무에서 보여주는 성능
소매 및 항공 도메인에서의 도구 호출(tool-calling) 에이전트에 대한 τ-bench의 평가를 읽은 후, 저는 Beancount 스타일의 에이전트가 실제로 작동해야 하는 영역인 기업용 소프트웨어 분야를 살펴보고 싶었습니다. WorkArena(Drouin 등, ServiceNow Research, 2024)는 ServiceNow 기업용 플랫폼 내의 33개 실제 작업을 기반으로 LLM 웹 에이전트를 벤치마킹하며, 이는 현재 모델이 가공된 장난감 시나리오가 아닌 실제 지식 노동자의 워크플로우를 자동화할 수 있는지에 대한 가장 직접적인 테스트입니다.
논문 요약
"WorkArena: 웹 에이전트는 일반적인 지식 업무 해결에 얼마나 능숙한가?(How Capable Are Web Agents at Solving Common Knowledge Work Tasks?)"는 ServiceNow 기업용 소프트웨어 플랫폼에서 추출한 33개의 작업과 19,912개의 고유 인스턴스로 구성된 벤치마크를 소개합니다. 이 작업들은 리스트 필터링 및 정렬, 양식 채우기, 지식 베이스 검색, 서비스 카탈로그 주문, 대시보드 읽기, 메뉴 탐색 등 지식 노동자가 실제로 매일 수행하는 6개 카테고리를 다룹니다. 벤치마크와 함께 저자들은 에이전트에게 HTML, 접근성 트리(accessibility trees), 스크린샷과 같은 풍부한 멀티모달 관찰 정보와 웹 상호작용을 위한 표준화된 액션 공간을 제공하는 평가 하네스인 BrowserGym을 출시했습니다.
이 논문의 핵심 질문은 현재의 LLM이 실제 기업용 소프트웨어가 요구하는 구조화되고 다단계이며 UI 제약이 있는 워크플로우를 처리할 수 있는지 여부입니다. 이는 개방형 검색 작업이나 단일 턴 QA가 아니라, 라이브 시스템에서 검증 가능한 흔적을 남기는 클릭, 양식 입력, 필터 작업의 목표 지향적 시퀀스입니다. 이러한 '시스템 상태로부터의 검증' 속성은 WorkArena를 대부분의 에이전트 벤치마크와 의미 있게 차별화하는 요소이며, 이는 Beancount 쓰기(write-back) 에이전트가 충족해야 할 속성과 정확히 일치합니다.
핵심 아이디어
- GPT-4o는 생각의 사슬(chain-of-thought) 프롬프팅을 통해 WorkArena에서 전체 42.7%에 도달했습니다. 반면 GPT-3.5-Turbo는 6.1%에 그쳤고, 오픈 소스인 Llama3-70B-Instruct는 17.9%를 기록하여 최첨단 상용 모델과 오픈 소스 모델 사이에 25포인트의 격차가 있음을 보여주었습니다.
- 리스트 필터링 작업은 완벽한 장벽이었습니다: 모든 모델에서 0%를 기록했습니다. ServiceNow의 리스트 위젯은 테스트된 어떤 에이전트도 안정적으로 상호작용할 수 없는 비표준 HTML을 사용했습니다. 정렬 작업도 거의 비슷하게 좋지 않았습니다. GPT-4o는 리스트 정렬 작업에서 단 10%의 성공률만을 기록했습니다.
- 서비스 카탈로그 작업은 의외로 다루기 쉬웠습니다. GPT-4o는 9개의 서비스 카탈로그 작업에서 77.8%의 성공률을 기록했는데, 이곳의 UI는 더 전통적이며 필요한 작업들이 모델이 학습 과정에서 보았을 법한 양식 채우기 패턴과 밀접하게 일치하기 때문입니다.
- 멀티모달 관찰은 거의 도움이 되지 않았습니다. GPT-4o의 관찰 정보에 스크린샷을 추가했을 때 "매우 미미한 성능 향상"만 나타났으며, 이는 병목 현상이 시각적 입력의 부재가 아니라 UI 구조에 대한 이해에 있음을 시사합니다.
- 생각의 사슬(Chain-of-thought)이 성능을 지탱합니다. 이를 제거하면 Llama3-70B의 성능이 WorkArena에서 약 10포인트 하락하며, 다단계 웹 작업에는 단순히 다음 행동을 예측하는 것이 아니라 명시적인 중간 추론이 필요함을 확인시켜 주었습니다.
- 메모리 메커니즘이 역효과를 냈습니다.
use_think_history플래그를 활성화하면 에이전트가 "초기 단계에서 내린 결정, 심지어 잘못된 결정도 고수하는" 경향을 보였는데, 이는 경직된 집착이 계획 수립으로 오인된 구체적인 사례입니다.