Pular para o conteúdo principal

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

O WorkArena++ (arXiv:2407.05291, NeurIPS 2024) estende o benchmark WorkArena original para 682 tarefas empresariais composicionais que exigem o encadeamento de múltiplos fluxos de trabalho — exatamente o trabalho de conhecimento de várias etapas que um agente de automação do Beancount precisaria lidar. Estou lendo isso agora porque o log original do WorkArena (LOG-061) deixou em aberto a questão do que acontece quando você compõe tarefas atômicas em fluxos de trabalho reais. A resposta, como este artigo deixa claro, é que todos os LLMs atuais despencam.

O artigo

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert et al., na ServiceNow Research, pegam os componentes de tarefas atômicas do WorkArena original — preenchimento de formulários, filtragem de listas, pesquisa em base de conhecimento, leitura de dashboards — e os compõem em fluxos de trabalho empresariais realistas de várias etapas. O benchmark é executado inteiramente dentro de uma instância real do ServiceNow via ambiente BrowserGym, fornecendo aos agentes observações em HTML e entradas opcionais de capturas de tela.

A decisão estrutural fundamental é uma hierarquia de dificuldade de três níveis. O L1 é o WorkArena original: tarefas atômicas de ação única, como "filtrar esta lista por status = Fechado". O L2 introduz tarefas composicionais com instruções explícitas passo a passo — o agente recebe um procedimento completo no chat, mas deve executar uma cadeia de subtarefas em diferentes módulos do ServiceNow sem se perder. O L3 é a versão difícil: o agente recebe apenas um objetivo implícito ("integrar um novo funcionário") e deve primeiro recuperar o procedimento relevante da base de conhecimento da empresa antes de planejar e executar as etapas. É exatamente assim que os trabalhadores do conhecimento reais operam.

Os autores também incluem um mecanismo para gerar automaticamente rastros de observação-ação de "verdade fundamental" (ground-truth) a partir de soluções oráculo, permitindo o ajuste fino supervisionado sem anotação manual.

Ideias principais

  • Humanos resolvem 93,9% das tarefas compostas; o GPT-4o resolve 2,1%. Isso não é uma falha de compreensão de linguagem — é uma falha de planejamento e execução em escala.
  • Nenhum modelo completa qualquer tarefa L3. A exigência de recuperar um procedimento, planejar etapas e executar sem orientação explícita permanece completamente sem solução por todos os modelos testados, incluindo o GPT-4o-v (a variante com capacidade de visão).
  • Apenas o GPT-4o e o GPT-4o-v têm sucesso em um subconjunto de tarefas L2, principalmente subtarefas de memorização. Agentes baseados no Llama3 falham amplamente tanto no L2 quanto no L3.
  • O realismo das tarefas L3 é a escolha de design crucial: receber um objetivo implícito como "integrar um novo funcionário" sem um procedimento — e então ter que procurá-lo — é como os funcionários realmente recebem tarefas em ambientes empresariais.
  • Cinco dimensões de capacidade são testadas: planejamento sob restrições, recuperação de informações, raciocínio baseado em dados, memória sequencial e reconhecimento de tarefas inviáveis.
  • Modos de falha documentados: alucinações sobre elementos da interface do usuário, incapacidade de manter planos de várias etapas em um contexto longo e falha ao cruzar informações de documentos separados.

O que se sustenta — e o que não

A manchete de 93,9% vs. 2,1% é impressionante, mas mecanisticamente explicável. O L2 e o L3 exigem que um modelo se lembre do que fez três etapas atrás, correlacione informações recuperadas de um documento com um formulário que está prestes a preencher e saiba quando uma etapa depende da conclusão de uma anterior. Essas tarefas não são exóticas — humanos as realizam sem esforço — mas os agentes LLM atuais falham na coordenação.

O que considero mais valioso aqui é o design L2 versus L3. O L2 entrega um procedimento ao agente; o L3 não. O abismo de desempenho entre eles isola exatamente uma capacidade: substituir a instrução explícita pela combinação de recuperação e planejamento. Essa é a parte difícil do trabalho de conhecimento autônomo, e o benchmark a expõe claramente.

O que o artigo não faz é mostrar que o mecanismo de rastreamento de treinamento realmente ajuda. Os autores fornecem a infraestrutura para gerar dados de ajuste fino e afirmam que os modelos podem ser treinados neles — mas não relatam resultados dessa prática. Sem esse experimento, o WorkArena++ é um benchmark no qual todos os agentes atuais falham, sem um caminho demonstrado para melhoria. Isso limita sua utilidade de curto prazo como alvo de treinamento.

A dependência do ServiceNow também restringe a generalização. O ServiceNow possui uma interface extraordinariamente estruturada e bem documentada. Se os agentes falham aqui, falharão ainda mais nos sistemas empresariais mais desorganizados que a maioria das organizações realmente utiliza.

Por que isso importa para a IA financeira

A conexão com a automação do Beancount é direta. Um agente contábil autônomo realiza trabalhos no estilo L3 por padrão: um usuário diz "conciliar as despesas do mês passado" e o agente deve recuperar a estrutura de contas relevante do livro-razão, planejar quais lançamentos inspecionar, cruzar com dados bancários importados e executar operações de gravação — tudo sem um guia passo a passo. O WorkArena++ quantifica o quão mal os agentes atuais lidam com esse padrão.

O mecanismo de rastreamento de treinamento também é imediatamente aplicável. As tarefas do Beancount possuem soluções oráculo determinísticas — os lançamentos contábeis corretos são verificáveis — o que significa que rastros de verdade fundamental poderiam ser gerados em escala para o ajuste fino de um agente de livro-razão especializado. Isso é precisamente o que o WorkArena++ possibilita, sem explorar no próprio artigo. É mais um projeto de design do que um problema resolvido.

A taxa de sucesso zero no L3 é o ponto de calibração mais útil para o Bean Labs: mesmo em um ambiente empresarial controlado, com dados limpos e uma interface bem estruturada, os agentes de ponta ainda não conseguem lidar com tarefas composicionais de objetivos implícitos. Essa lacuna é onde reside a pesquisa interessante.

O que ler a seguir

  • TheAgentCompany (arXiv:2412.14161) — 175 tarefas dentro de uma empresa de software simulada com ferramentas internas reais (GitLab, RocketChat); o melhor agente completa ~30%; um cenário empresarial mais naturalista do que o ServiceNow.
  • τ²-bench (arXiv:2506.07982) — estende o τ-bench para ambientes de controle duplo onde tanto o agente quanto o usuário podem modificar o estado compartilhado simultaneamente; diretamente relevante para sessões do Beancount onde usuários e agentes coeditam um livro-razão.
  • CRMArena-Pro (arXiv:2505.18878) — avaliação holística de agentes LLM em cenários de negócios de CRM usando modelos mais recentes; testa se a lacuna de capacidade do WorkArena++ diminuiu.