OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%
Ontem li sobre o WebArena, que situou agentes web autônomos em aproximadamente 14% de sucesso contra uma linha de base humana de 78%. O OSWorld (Xie et al., NeurIPS 2024) faz a mesma pergunta para o desktop completo: Ubuntu, Windows, macOS, aplicações GUI reais. A resposta é, no mínimo, mais humilde — e o modo de falha é suficientemente diferente para ser interessante por si só.
O artigo
O OSWorld constrói um benchmark de 369 tarefas fundamentadas em aplicações reais de desktop: LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC e fluxos de trabalho de múltiplas aplicações. Cada tarefa vem com um script de avaliação programática que verifica o estado real do sistema após a execução — sem heurísticas de correspondência de strings, sem LLM como juiz. A configuração utiliza máquinas virtuais para que as tarefas comecem em um estado reproduzível, e abrange os três principais sistemas operacionais.
Os autores testam uma gama de modelos de fronteira — GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent — em quatro configurações de entrada: apenas captura de tela, apenas árvore de acessibilidade, captura de tela mais árvore de acessibilidade e Set-of-Marks (SoM, onde elementos interativos são sobrepostos com rótulos numéricos antes do modelo agir).
Ideias-chave
- Humanos em tarefas desconhecidas têm sucesso em 72,36% das vezes. O melhor modelo no momento da submissão alcança 12,24%. A lacuna é de cerca de 60 pontos percentuais.
- O desempenho apenas com capturas de tela para os principais modelos (GPT-4V, Gemini-Pro-Vision) fica em torno de 5,26% a 5,80% — o que significa que adicionar contexto estruturado aproximadamente dobra o sucesso, mas ainda deixa 87% de falha.
- Tarefas de fluxo de trabalho multi-aplicação são a categoria mais difícil, com um teto de 6,57%, comparado às tarefas de OS/CLI onde as interfaces baseadas em texto facilitam a fundamentação.
- A árvore de acessibilidade e o Set-of-Marks ajudam, mas seu benefício depende do modelo: os autores relatam que eles também podem introduzir confusão ao sobrecarregar o modelo com estrutura irrelevante.
- O progresso pós-publicação tem sido rápido — o Agent S (GPT-4o, memória hierárquica) atingiu 20,58%; o ARPO baseado em RL chegou a 29,9%; o Agent S3 (Simular AI, 2025) afirma 62,6% na configuração de 100 etapas, aproximando-se da paridade humana. Mas a maioria desses ganhos vem de melhores modelos de fundamentação e ajuste fino por RL, não dos LLMs básicos testados originalmente no OSWorld.
- Análise de erros de 550 falhas: mais de 75% são imprecisões de clique do mouse — o agente raciocina corretamente, mas clica no pixel errado. Isso não é uma falha de raciocínio; é uma falha de fundamentação visuomotora.
O que se sustenta — e o que não
O design do benchmark é genuinamente rigoroso. A avaliação baseada em execução em VMs reais com 134 scripts de avaliação distintos remove os julgamentos subjetivos que assolam muitos benchmarks de agentes. Essa é uma contribuição metodológica significativa e é por isso que o número (12,24%) é credível.
A questão mais difícil é o que esses 12,24% realmente medem. A distribuição das tarefas é inclinada para aplicações com uso intenso de GUI, onde cliques com precisão de pixel importam enormemente. Um agente Beancount que rode inteiramente na CLI ou emita arquivos de texto provavelmente teria um desempenho muito melhor neste benchmark do que um agente fazendo formatação de planilhas no LibreOffice. O número principal agrupa demandas cognitivas muito diferentes — controle motor espacial, planejamento de múltiplas etapas, conhecimento de domínio — e atribuí-lo a uma única afirmação de que "agentes não conseguem usar computadores" é uma simplificação excessiva.
A descoberta de que o "set-of-marks pode enganar alguns modelos" é interessante, mas pouco explorada. O artigo observa a variância sem explicar totalmente quais tipos de tarefas ou modelos são ajudados versus prejudicados. Isso parece ser a questão mais importante para profissionais que projetam UIs de agentes, e recebe apenas um parágrafo.
Também sou cético quanto à forma como a amostra de 369 tarefas cobre a "cauda longa" de fluxos de trabalho reais. As tarefas são selecionadas por pesquisadores que necessariamente tendem a tarefas que são verificáveis. Tarefas de contabilidade do mundo real genuinamente ambíguas — como "limpar estes nomes de fornecedores inconsistentes" — são difíceis de avaliar programaticamente e provavelmente estão sub-representadas.
Por que isso importa para a IA financeira
A descoberta de que 75% das falhas são erros de fundamentação é diretamente relevante para agentes Beancount, embora o Beancount viva na camada de texto. O padrão mais profundo — agentes planejam corretamente, mas executam incorretamente — mapeia falhas de gravação no ledger onde um agente gera a transação correta, mas a escreve na conta errada ou com uma data transposta. Em ambos os casos, o gargalo é a execução precisa, não o raciocínio estratégico.
O desempenho do fluxo de trabalho multi-app (6,57%) é o dado que considero mais sóbrio para o Bean Labs. Os fluxos de trabalho de contabilidade reais quase sempre abrangem várias aplicações: uma exportação de CSV bancário, um arquivo Beancount, uma planilha de conciliação, um recibo em PDF. Se os agentes de GUI lutam catastroficamente na coordenação multi-app mesmo em tarefas selecionadas, um agente Beancount que precisa orquestrar importações, edições de ledger e geração de relatórios enfrenta um desafio estruturalmente semelhante — mesmo em um contexto de CLI onde não há cliques em pixels envolvidos.
A boa notícia da trajetória pós-artigo (Agent S3 em 62,6%) é que essas não são barreiras fundamentais. Elas são solucionáveis com melhores modelos de fundamentação e ajuste fino de RL. Mas esse progresso exigiu 18 meses e computação significativa para o treinamento de RL, o que não é o patamar de capacidade padrão que um agente Beancount pode assumir de um modelo de fronteira via prompt.
O que ler a seguir
- AndroidWorld (Rawles et al., arXiv:2405.14573) — estende o OSWorld para dispositivos Android com tarefas parametrizadas dinamicamente, relevante para interfaces Beancount móveis.
- WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — adapta o OSWorld para Windows com mais de 150 tarefas; valida independentemente que a lacuna persiste em todos os sistemas operacionais.
- Agent S2 (Agashe et al., arXiv:2504.00906) — arquitetura composicional de generalista-especialista que impulsiona significativamente o estado da arte; vale a pena entender a arquitetura antes de projetar um planejador multi-etapas para Beancount.
