본문으로 건너뛰기

WorkArena++: 복합적 기업 업무에서 인간과 AI 에이전트 간의 93% 성능 격차

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024)는 기존 WorkArena 벤치마크를 여러 워크플로우를 연결해야 하는 682개의 복합적 기업 업무로 확장합니다. 이는 Beancount 자동화 에이전트가 처리해야 할 다단계 지식 노동과 정확히 일치합니다. 원본 WorkArena 로그(LOG-061)에서 원자적 작업을 실제 워크플로우로 구성할 때 어떤 일이 발생하는지에 대한 의문을 남겼기에 이 논문을 읽고 있습니다. 이 논문이 명확히 밝히는 답은, 모든 최신 LLM이 이러한 환경에서 급격한 성능 저하를 보인다는 것입니다.

논문 내용

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

ServiceNow Research의 Boisvert 등은 원본 WorkArena의 원자적 작업 구성 요소(양식 작성, 목록 필터링, 지식 베이스 검색, 대시보드 읽기)를 가져와 현실적인 다단계 기업 워크플로우로 구성합니다. 이 벤치마크는 BrowserGym 환경을 통해 실제 ServiceNow 인스턴스 내부에서 실행되며, 에이전트에게 HTML 관찰 결과와 선택적인 스크린샷 입력을 제공합니다.

핵심적인 구조적 결정은 3단계 난이도 계층입니다. L1은 원본 WorkArena로, "상태 = Closed로 이 목록을 필터링"과 같은 원자적인 단일 작업입니다. L2는 단계별 지침이 명시된 복합 작업을 도입합니다. 에이전트는 채팅을 통해 전체 절차를 전달받지만, 흐름을 놓치지 않고 서로 다른 ServiceNow 모듈에서 하위 작업 체인을 실행해야 합니다. L3는 어려운 버전입니다. 에이전트는 암시적 목표("신입 사원 온보딩")만 부여받으며, 단계를 계획하고 실행하기 전에 먼저 회사의 지식 베이스에서 관련 절차를 검색해야 합니다. 이것이 바로 실제 지식 노동자가 일하는 방식입니다.

저자들은 또한 오라클 솔루션으로부터 정답 관찰-행동 트레이스를 자동으로 생성하는 메커니즘을 포함하여, 수동 주석 없이 지도 미세 조정을 가능하게 했습니다.

핵심 아이디어

  • 인간은 복합 작업의 93.9%를 해결하는 반면, GPT-4o는 2.1%를 해결합니다. 이는 언어 이해의 실패가 아니라, 대규모에서의 계획 수립 및 실행 실패입니다.
  • L3 작업을 완료한 모델은 없습니다. 절차를 검색하고, 단계를 계획하고, 명시적인 지침 없이 실행해야 하는 요구 사항은 GPT-4o-v(시각 능력 탑재 변체)를 포함하여 테스트된 모든 모델에서 전혀 해결되지 않았습니다.
  • GPT-4o와 GPT-4o-v만이 L2 작업의 일부에 성공했습니다. 주로 암기 관련 하위 작업들입니다. Llama3 기반 에이전트는 L2와 L3 모두에서 대부분 실패했습니다.
  • L3 작업의 현실성이 핵심 설계 선택입니다: 절차 없이 "신입 사원 온보딩"과 같은 암시적 목표를 부여받고 이를 직접 찾아보는 방식은 기업 환경에서 직원이 실제로 업무를 할당받는 방식입니다.
  • 5가지 역량 차원이 테스트됩니다: 제약 조건 하의 계획 수립, 정보 검색, 데이터 기반 추론, 순차적 메모리, 실행 불가능한 작업 인식.
  • 문서화된 실패 모드: UI 요소에 대한 환각(Hallucination), 긴 컨텍스트에서 다단계 계획 유지 불가, 서로 다른 문서 간 정보 교차 참조 실패.

유효한 점과 그렇지 않은 점

93.9% 대 2.1%라는 헤드라인은 놀랍지만 기계적으로 설명 가능합니다. L2와 L3는 모델이 세 단계 전의 행동을 기억하고, 한 문서에서 검색한 정보를 곧 작성할 양식과 연관시키며, 하위 단계가 이전 단계의 완료에 의존하는 시점을 알아야 합니다. 이는 특별한 것이 아니며 인간은 이를 손쉽게 해내지만, 현재의 LLM 에이전트는 조정 과정에서 무너집니다.

여기서 가장 가치 있다고 생각하는 부분은 L2 대 L3의 설계입니다. L2는 에이전트에게 절차를 제공하고, L3는 제공하지 않습니다. 이들 사이의 성능 절벽은 정확히 하나의 역량, 즉 명시적 지침 준수를 '검색 및 계획'으로 대체하는 역량을 분리해 냅니다. 이것이 자율 지식 노동의 어려운 부분이며, 벤치마크는 이를 명확하게 드러냅니다.

이 논문이 하지 못한 점은 훈련 트레이스 메커니즘이 실제로 도움이 된다는 것을 보여주는 것입니다. 저자들은 미세 조정 데이터를 생성하는 인프라를 제공하고 모델을 이를 통해 훈련할 수 있다고 언급하지만, 실제 결과는 보고하지 않았습니다. 이 실험이 없다면, WorkArena++는 현재 모든 에이전트가 실패하며 개선을 위한 입증된 경로가 없는 벤치마크에 불과합니다. 이는 훈련 목표로서의 단기적인 유용성을 제한합니다.

또한 ServiceNow에 대한 의존도는 일반화 가능성을 제한합니다. ServiceNow는 예외적으로 구조화되고 문서화가 잘 된 인터페이스를 가지고 있습니다. 에이전트가 여기서 실패한다면, 대부분의 조직이 실제로 운영하는 훨씬 더 무질서한 기업 시스템에서는 더 심하게 실패할 것입니다.

금융 AI에 중요한 이유

Beancount 자동화와의 연결 고리는 직접적입니다. 자율 회계 에이전트는 기본적으로 L3 방식의 업무를 수행합니다. 사용자가 "지난달 지출 내역을 대조해 줘"라고 말하면, 에이전트는 원장에서 관련 계정 구조를 검색하고, 검토할 항목을 계획하고, 가져온 은행 데이터와 교차 참조한 다음, 쓰기 작업을 실행해야 합니다. 이 모든 과정에 단계별 가이드는 없습니다. WorkArena++는 현재 에이전트가 이러한 패턴을 얼마나 제대로 처리하지 못하는지를 수치로 보여줍니다.

훈련 트레이스 메커니즘 역시 즉시 적용 가능합니다. Beancount 작업은 결정론적인 오라클 솔루션을 가집니다. 즉, 올바른 분개 항목을 검증할 수 있으므로 전문화된 원장 에이전트의 미세 조정을 위한 정답 트레이스를 대규모로 생성할 수 있습니다. 이것이 바로 WorkArena++가 논문 자체에서 활용하지는 않았지만 가능하게 만든 설계 청사진입니다. 이는 해결된 문제라기보다 설계 도면에 가깝습니다.

L3 성공률 0%는 Bean Labs에 가장 유용한 보정 포인트입니다. 데이터가 깨끗하고 인터페이스가 잘 구조화된 통제된 기업 환경에서도 최신 에이전트는 아직 암시적 목표의 복합 작업을 처리할 수 없습니다. 그 간극이 바로 흥미로운 연구가 존재하는 지점입니다.

다음 읽을거리

  • TheAgentCompany (arXiv:2412.14161) — 실제 내부 도구(GitLab, RocketChat)를 갖춘 시뮬레이션 소프트웨어 회사 내 175개 작업. 최적의 에이전트가 약 30% 완료. ServiceNow보다 더 자연스러운 기업 환경.
  • τ²-bench (arXiv:2506.07982) — 에이전트와 사용자 모두 공유 상태를 동시에 수정할 수 있는 이중 제어 환경으로 τ-bench를 확장. 사용자와 에이전트가 원장을 공동 편집하는 Beancount 세션과 직접적인 관련이 있음.
  • CRMArena-Pro (arXiv:2505.18878) — 최신 모델을 사용한 CRM 비즈니스 시나리오 전반에 걸친 포괄적인 LLM 에이전트 평가. WorkArena++의 역량 격차가 좁혀졌는지 테스트함.