WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

13 de junho de 2026 · 7 min para ler

Mike Thrift

Marketing Manager

Depois de ler a avaliação do τ-bench sobre agentes de chamada de ferramentas nos domínios de varejo e companhias aéreas, eu quis avançar para o software empresarial — o território onde os agentes no estilo Beancount realmente precisam operar. O WorkArena (Drouin et al., ServiceNow Research, 2024) avalia agentes web de LLM em 33 tarefas reais dentro da plataforma empresarial ServiceNow, tornando-o o teste existente mais direto sobre se os modelos atuais podem automatizar fluxos de trabalho genuínos de trabalhadores do conhecimento, em vez de cenários de brinquedo sintéticos.

O artigo

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

"WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?" apresenta um benchmark de 33 tarefas e 19.912 instâncias únicas extraídas da plataforma de software empresarial ServiceNow. As tarefas cobrem seis categorias que os trabalhadores do conhecimento realizam diariamente: filtragem e ordenação de listas, preenchimento de formulários, busca em bases de conhecimento, pedidos em catálogos de serviços, leitura de painéis e navegação em menus. Junto com o benchmark, os autores lançam o BrowserGym, uma estrutura de avaliação que fornece aos agentes observações multimodais ricas — HTML, árvores de acessibilidade, capturas de tela — além de um espaço de ação padronizado para interações na web.

A questão central que o artigo levanta é se os LLMs atuais conseguem lidar com os fluxos de trabalho estruturados, de múltiplas etapas e com restrições de UI que o software empresarial real exige. Estas não são tarefas de busca abertas ou perguntas e respostas de turno único; são sequências de cliques direcionadas a objetivos, entradas de formulários e operações de filtro que deixam rastros verificáveis em um sistema ativo. Essa propriedade de verificação a partir do estado do sistema é o que torna o WorkArena significativamente diferente da maioria dos benchmarks de agentes, e é exatamente a propriedade que um agente de gravação do Beancount precisaria satisfazer.

Ideias principais

O GPT-4o atinge 42,7% no geral no WorkArena com prompts de cadeia de pensamento; o GPT-3.5-Turbo alcança apenas 6,1%, e o Llama3-70B-Instruct de código aberto fica em 17,9% — uma lacuna de 25 pontos entre os modelos proprietários de fronteira e os de código aberto de fronteira.
As tarefas de filtragem de lista são uma barreira total: 0% para cada modelo. O widget de lista do ServiceNow usa um HTML não padronizado com o qual nenhum dos agentes testados conseguiu interagir de forma confiável. A ordenação é quase tão ruim: o GPT-4o atinge apenas 10% em tarefas de ordenação de lista.
Tarefas de catálogo de serviços são surpreendentemente tratáveis: o GPT-4o atinge 77,8% nas nove tarefas de catálogo de serviços, onde a UI é mais convencional e as ações necessárias se mapeiam de perto aos padrões de preenchimento de formulários que o modelo provavelmente viu no treinamento.
Observações multimodais mal ajudam. Adicionar capturas de tela às observações do GPT-4o produziu "melhorias de desempenho muito pequenas", sugerindo que o gargalo é a compreensão da estrutura da UI, não a ausência de entrada visual.
A cadeia de pensamento é fundamental para o suporte da carga. Removê-la derruba o Llama3-70B em cerca de 10 pontos no WorkArena, confirmando que tarefas web de múltiplas etapas exigem raciocínio intermediário explícito, não apenas previsão de ação.
Mecanismos de memória saíram pela culatra. Ativar uma flag use_think_history fez com que os agentes "se apegassem a decisões decididas em etapas iniciais, mesmo as errôneas" — um exemplo concreto de comprometimento rígido disfarçado de planejamento.

O que se sustenta — e o que não

A propriedade mais valiosa do benchmark é que ele roda contra uma instância ativa do ServiceNow: o sucesso é determinado pelo fato de o estado do sistema ter realmente mudado corretamente, não por correspondência de strings contra uma saída esperada. Isso torna o resultado de 0% nas tarefas de filtragem de lista particularmente contundente — não há onde se esconder. A variedade de tarefas também é genuinamente representativa: as seis categorias abrangem a amplitude do que os trabalhadores do conhecimento gastam tempo, não sendo tarefas de vitrine escolhidas a dedo.

O que considero menos satisfatório é o tratamento dos modos de falha. O artigo identifica que estruturas HTML exóticas, iFrames aninhados e shadow DOMs quebram os agentes, mas não isola sistematicamente quais recursos estruturais são responsáveis ou em que proporção. O problema do tamanho do DOM — árvores HTML variando de 40k a 500k tokens — é mencionado, mas não profundamente analisado: não sabemos se a sumarização, o chunking ou observações apenas da árvore de acessibilidade recuperariam o desempenho. A arquitetura de agente único também nunca é comparada com uma configuração multiagente decomposta (uma divisão seletor/executor, por exemplo), portanto não está claro se o resultado de 0% na filtragem de lista é um problema de interface, um problema de planejamento ou ambos.

Há também uma questão de validade da plataforma que vale a pena levantar. O ServiceNow é uma pilha de software empresarial específica com padrões de UI idiossincráticos. Os resultados nos dizem muito sobre agentes do ServiceNow e um pouco menos sobre agentes web empresariais em geral. Generalizar a falha de filtragem de lista para, digamos, uma interface beanquery ou uma ferramenta de planilha requer evidências independentes.

Por que isso importa para a IA financeira

Os resultados do WorkArena são um ponto de calibração ao qual sempre volto para a agenda de automação do Beancount. O padrão de falha é instrutivo: os agentes se saem bem em tarefas que se parecem com formulários web (catálogo de serviços, 77,8%) e colapsam em tarefas que exigem interação precisa com widgets de UI estruturados e não padronizados (filtragem de lista, 0%). Um agente do Beancount fazendo lançamentos contábeis enfrentaria um cenário misto: a parte de linguagem-natural-para-transação assemelha-se às tarefas de preenchimento de formulários onde o desempenho é razoável; mas as partes de consulta, filtro e reconciliação — encontrar entradas específicas, ordenar por data, aplicar filtros de conta — parecem-se muito mais com as tarefas de lista onde tudo quebra.

O artigo também reforça uma lição dos logs do CRITIC e Reflexion: a verificação externa importa mais do que o raciocínio interno. As tarefas do WorkArena sucedem ou falham com base no estado do sistema, e essa verdade fundamental limpa é o que torna o benchmark honesto. Para agentes de gravação do Beancount, isso argumenta fortemente a favor de um design onde cada alteração de livro contábil confirmada seja verificada contra a API Python do beancount antes de ser aceita, não apenas verificada pelo próprio raciocínio do agente. O teto de 42,7% no melhor modelo no ICML 2024 sugere que, mesmo para tarefas convencionais de UI empresarial, a lacuna entre "ocasionalmente útil" e "confiavelmente automatizável" ainda é grande.

O que ler a seguir

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — a continuação da mesma equipe do ServiceNow com 682 tarefas compostas que exigem planejamento, raciocínio aritmético e recuperação de múltiplos documentos; responde diretamente se a escala da complexidade da tarefa expõe novos modos de falha além da barreira de interação de UI.
WebArena (arXiv:2307.13854, ICLR 2024) — o benchmark complementar de agentes web de uso geral (812 tarefas em e-commerce, fóruns, hospedagem de código, CMS) onde o GPT-4 alcança apenas 14,41% contra 78% de desempenho humano; situa os números do WorkArena no cenário mais amplo de agentes web.
OSWorld (arXiv:2404.07972, NeurIPS 2024) — estende a avaliação de automação empresarial para ambientes de desktop completos, incluindo aplicativos reais (LibreOffice, VS Code, Chrome); o teste mais abrangente sobre se os modos de falha do WorkArena são específicos da UI ou refletem uma lacuna de competência de agente mais profunda.

Share on Twitter Follow @beancount_io

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

O artigo

Ideias principais

O que se sustenta — e o que não

Por que isso importa para a IA financeira

O que ler a seguir

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico

O artigo​

Ideias principais​

O que se sustenta — e o que não​

Por que isso importa para a IA financeira​

O que ler a seguir​

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico

O artigo

Ideias principais

O que se sustenta — e o que não

Por que isso importa para a IA financeira

O que ler a seguir