Pular para o conteúdo principal

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Depois de ler a avaliação do τ-bench sobre agentes de chamada de ferramentas nos domínios de varejo e companhias aéreas, eu quis avançar para o software empresarial — o território onde os agentes no estilo Beancount realmente precisam operar. O WorkArena (Drouin et al., ServiceNow Research, 2024) avalia agentes web de LLM em 33 tarefas reais dentro da plataforma empresarial ServiceNow, tornando-o o teste existente mais direto sobre se os modelos atuais podem automatizar fluxos de trabalho genuínos de trabalhadores do conhecimento, em vez de cenários de brinquedo sintéticos.

O artigo

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

"WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?" apresenta um benchmark de 33 tarefas e 19.912 instâncias únicas extraídas da plataforma de software empresarial ServiceNow. As tarefas cobrem seis categorias que os trabalhadores do conhecimento realizam diariamente: filtragem e ordenação de listas, preenchimento de formulários, busca em bases de conhecimento, pedidos em catálogos de serviços, leitura de painéis e navegação em menus. Junto com o benchmark, os autores lançam o BrowserGym, uma estrutura de avaliação que fornece aos agentes observações multimodais ricas — HTML, árvores de acessibilidade, capturas de tela — além de um espaço de ação padronizado para interações na web.

A questão central que o artigo levanta é se os LLMs atuais conseguem lidar com os fluxos de trabalho estruturados, de múltiplas etapas e com restrições de UI que o software empresarial real exige. Estas não são tarefas de busca abertas ou perguntas e respostas de turno único; são sequências de cliques direcionadas a objetivos, entradas de formulários e operações de filtro que deixam rastros verificáveis em um sistema ativo. Essa propriedade de verificação a partir do estado do sistema é o que torna o WorkArena significativamente diferente da maioria dos benchmarks de agentes, e é exatamente a propriedade que um agente de gravação do Beancount precisaria satisfazer.

Ideias principais

  • O GPT-4o atinge 42,7% no geral no WorkArena com prompts de cadeia de pensamento; o GPT-3.5-Turbo alcança apenas 6,1%, e o Llama3-70B-Instruct de código aberto fica em 17,9% — uma lacuna de 25 pontos entre os modelos proprietários de fronteira e os de código aberto de fronteira.
  • As tarefas de filtragem de lista são uma barreira total: 0% para cada modelo. O widget de lista do ServiceNow usa um HTML não padronizado com o qual nenhum dos agentes testados conseguiu interagir de forma confiável. A ordenação é quase tão ruim: o GPT-4o atinge apenas 10% em tarefas de ordenação de lista.
  • Tarefas de catálogo de serviços são surpreendentemente tratáveis: o GPT-4o atinge 77,8% nas nove tarefas de catálogo de serviços, onde a UI é mais convencional e as ações necessárias se mapeiam de perto aos padrões de preenchimento de formulários que o modelo provavelmente viu no treinamento.
  • Observações multimodais mal ajudam. Adicionar capturas de tela às observações do GPT-4o produziu "melhorias de desempenho muito pequenas", sugerindo que o gargalo é a compreensão da estrutura da UI, não a ausência de entrada visual.
  • A cadeia de pensamento é fundamental para o suporte da carga. Removê-la derruba o Llama3-70B em cerca de 10 pontos no WorkArena, confirmando que tarefas web de múltiplas etapas exigem raciocínio intermediário explícito, não apenas previsão de ação.
  • Mecanismos de memória saíram pela culatra. Ativar uma flag use_think_history fez com que os agentes "se apegassem a decisões decididas em etapas iniciais, mesmo as errôneas" — um exemplo concreto de comprometimento rígido disfarçado de planejamento.

O que se sustenta — e o que não

A propriedade mais valiosa do benchmark é que ele roda contra uma instância ativa do ServiceNow: o sucesso é determinado pelo fato de o estado do sistema ter realmente mudado corretamente, não por correspondência de strings contra uma saída esperada. Isso torna o resultado de 0% nas tarefas de filtragem de lista particularmente contundente — não há onde se esconder. A variedade de tarefas também é genuinamente representativa: as seis categorias abrangem a amplitude do que os trabalhadores do conhecimento gastam tempo, não sendo tarefas de vitrine escolhidas a dedo.

O que considero menos satisfatório é o tratamento dos modos de falha. O artigo identifica que estruturas HTML exóticas, iFrames aninhados e shadow DOMs quebram os agentes, mas não isola sistematicamente quais recursos estruturais são responsáveis ou em que proporção. O problema do tamanho do DOM — árvores HTML variando de 40k a 500k tokens — é mencionado, mas não profundamente analisado: não sabemos se a sumarização, o chunking ou observações apenas da árvore de acessibilidade recuperariam o desempenho. A arquitetura de agente único também nunca é comparada com uma configuração multiagente decomposta (uma divisão seletor/executor, por exemplo), portanto não está claro se o resultado de 0% na filtragem de lista é um problema de interface, um problema de planejamento ou ambos.

Há também uma questão de validade da plataforma que vale a pena levantar. O ServiceNow é uma pilha de software empresarial específica com padrões de UI idiossincráticos. Os resultados nos dizem muito sobre agentes do ServiceNow e um pouco menos sobre agentes web empresariais em geral. Generalizar a falha de filtragem de lista para, digamos, uma interface beanquery ou uma ferramenta de planilha requer evidências independentes.

Por que isso importa para a IA financeira

Os resultados do WorkArena são um ponto de calibração ao qual sempre volto para a agenda de automação do Beancount. O padrão de falha é instrutivo: os agentes se saem bem em tarefas que se parecem com formulários web (catálogo de serviços, 77,8%) e colapsam em tarefas que exigem interação precisa com widgets de UI estruturados e não padronizados (filtragem de lista, 0%). Um agente do Beancount fazendo lançamentos contábeis enfrentaria um cenário misto: a parte de linguagem-natural-para-transação assemelha-se às tarefas de preenchimento de formulários onde o desempenho é razoável; mas as partes de consulta, filtro e reconciliação — encontrar entradas específicas, ordenar por data, aplicar filtros de conta — parecem-se muito mais com as tarefas de lista onde tudo quebra.

O artigo também reforça uma lição dos logs do CRITIC e Reflexion: a verificação externa importa mais do que o raciocínio interno. As tarefas do WorkArena sucedem ou falham com base no estado do sistema, e essa verdade fundamental limpa é o que torna o benchmark honesto. Para agentes de gravação do Beancount, isso argumenta fortemente a favor de um design onde cada alteração de livro contábil confirmada seja verificada contra a API Python do beancount antes de ser aceita, não apenas verificada pelo próprio raciocínio do agente. O teto de 42,7% no melhor modelo no ICML 2024 sugere que, mesmo para tarefas convencionais de UI empresarial, a lacuna entre "ocasionalmente útil" e "confiavelmente automatizável" ainda é grande.

O que ler a seguir

  • WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — a continuação da mesma equipe do ServiceNow com 682 tarefas compostas que exigem planejamento, raciocínio aritmético e recuperação de múltiplos documentos; responde diretamente se a escala da complexidade da tarefa expõe novos modos de falha além da barreira de interação de UI.
  • WebArena (arXiv:2307.13854, ICLR 2024) — o benchmark complementar de agentes web de uso geral (812 tarefas em e-commerce, fóruns, hospedagem de código, CMS) onde o GPT-4 alcança apenas 14,41% contra 78% de desempenho humano; situa os números do WorkArena no cenário mais amplo de agentes web.
  • OSWorld (arXiv:2404.07972, NeurIPS 2024) — estende a avaliação de automação empresarial para ambientes de desktop completos, incluindo aplicativos reais (LibreOffice, VS Code, Chrome); o teste mais abrangente sobre se os modos de falha do WorkArena são específicos da UI ou refletem uma lacuna de competência de agente mais profunda.