TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real
TheAgentCompany é o benchmark de agentes empresariais mais realista que li até agora nesta série. Ele vem do grupo de Graham Neubig na CMU e foi submetido ao NeurIPS 2024, motivado por uma lacuna clara: benchmarks existentes testam navegação web isolada ou resolução de problemas no GitHub, mas as tarefas reais de trabalho exigem que os agentes naveguem em plataformas internas, enviem mensagens a colegas, escrevam código e executem programas dentro de uma única tarefa. Estou lendo isso agora porque é o experimento controlado mais próximo que temos sobre se os agentes de LLM podem realmente funcionar como colegas de trabalho digitais em um ambiente consequente.
O artigo
Xu et al. constroem uma empresa simulada independente: um espaço de trabalho local mais uma intranet executando instâncias reais de GitLab, OwnCloud, Plane (gestão de projetos) e RocketChat (mensagens de equipe). O ambiente também inclui colegas simulados — NPCs baseados em LLMs — para que os agentes possam enviar mensagens e receber orientação no meio da tarefa. As tarefas abrangem sete categorias de funções: engenharia de desenvolvimento de software (SDE), gestão de projetos, RH, ciência de dados, finanças, administrativo e uma categoria geral "outros". O total é de 175 tarefas, selecionadas por 20 estudantes de ciência da computação e engenheiros de software ao longo de aproximadamente 3.000 horas-pessoa durante dois meses.
A avaliação utiliza um sistema de checkpoints: cada tarefa tem marcos intermediários que valem uma fração da pontuação total, além de um bônus pela conclusão total. Os avaliadores são determinísticos (verificando o conteúdo dos arquivos, saídas de código, estado do ambiente) ou baseados em LLM (avaliando texto livre). Todos os modelos rodam sob o framework de agentes OpenHands, que fornece execução de código, navegação web e acesso ao terminal a partir de um único ambiente configurável.
Ideias principais
- O Gemini-2.5-Pro lidera com 30,3% de conclusão total e 39,3% de pontuação parcial; o Claude-3.7-Sonnet segue com 26,3% / 36,4%; o GPT-4o alcança apenas 8,6% / 16,7%; o Llama-3.1-405B consegue 7,4%.
- O melhor modelo tem uma média de cerca de 27 passos de agente e custa mais de US$ 4 por tarefa — mesmo para tarefas que os autores descrevem como mais simples do que a complexidade real do local de trabalho.
- As tarefas de finanças estão entre as categorias mais difíceis, junto com as administrativas e de ciência de dados; as tarefas de SDE são confiavelmente as mais fáceis, apesar de exigirem conhecimentos técnicos mais especializados.
- Três modos de falha predominam: navegar em interfaces web complexas (especialmente a suíte de escritório do OwnCloud), falhar em usar produtivamente as mensagens dos colegas ("falta de habilidades sociais") e abandonar tarefas administrativas de vários documentos que exigem referências cruzadas tediosas.
- Os autores atribuem a vantagem de SDE diretamente ao viés dos dados de treinamento: o pré-treinamento de LLMs inclina-se fortemente para código e dados do GitHub devido a benchmarks proeminentes e sinais de treinamento público abundantes, de modo que os modelos generalizam muito melhor para tarefas de software do que para fluxos de trabalho de RH ou finanças.
O que se sustenta — e o que não
O design do ambiente é genuinamente impressionante. Executar instâncias reais de GitLab, OwnCloud e RocketChat, em vez de simulações simplificadas, significa que os agentes enfrentam a complexidade autêntica da interface do usuário — pop-ups reais, fluxos de autenticação e casos extremos. A pontuação parcial baseada em checkpoints também é a escolha certa: o sucesso/falha binário faria com que a maioria das tarefas parecesse uniformemente sem esperança, obscurecendo onde os agentes realmente progridem.
Dito isso, várias fraquezas valem ser destacadas. Criticamente, não há um referencial de desempenho humano. Os autores reconhecem isso — restrições de recursos impediram a coleta de tempos humanos ou taxas de sucesso — o que significa que não temos um denominador. A conclusão de 30% por agentes parece ruim, mas sem saber se um humano gastaria 20 minutos ou 3 horas na mesma tarefa, ou se algumas tarefas são genuinamente ambíguas, o número é difícil de contextualizar.
A categoria de finanças tem apenas 12 tarefas. Isso é muito pouco para tirar conclusões robustas sobre falhas específicas de finanças. Os agentes são piores em finanças por causa de alguma propriedade do raciocínio financeiro ou porque as tarefas de finanças envolvem mais navegação de documentos no OwnCloud? O artigo não consegue desambiguar nessa escala, e os autores não tentam.
Os autores também reconhecem que as tarefas "estão geralmente no lado mais simples devido à necessidade de avaliar automaticamente com programas e casos de teste". As tarefas contábeis ou financeiras reais mais difíceis — preparar uma conciliação de final de ano a partir de dados de origem inconsistentes, sinalizar problemas de conformidade regulatória, produzir um relatório gerencial abrangendo vários períodos do livro-razão — são essencialmente impossíveis de avaliar automaticamente. O benchmark provavelmente sub-representa exatamente as tarefas que seriam mais importantes para agentes financeiros autônomos.
Por que isso importa para a IA nas finanças
Os resultados aqui são moderados de uma forma útil. Uma taxa de conclusão de 30% em tarefas que os autores chamam de simplificadas significa que os agentes autônomos não estão nem perto de serem operacionais para fluxos de trabalho contábeis reais. A categoria de finanças é especificamente fraca, e os modos de falha dominantes — interfaces complexas, recuperação de múltiplos documentos, quebra de comunicação com contrapartes humanas — são precisamente as habilidades que um agente de automação Beancount precisaria: extrair dados do armazenamento de documentos, fazer referências cruzadas de transações em relatórios e fazer perguntas esclarecedoras antes de confirmar lançamentos.
O custo de US$ 4 por tarefa para o melhor modelo é um fator limitante. Nessa taxa, executar um agente em um fechamento mensal rotineiro envolvendo dezenas de subtarefas custaria centenas de dólares sem garantia de confiabilidade. O padrão do Gemini-2.0-Flash de interromper perdas cedo — alcançando 19,0% de pontuação parcial a menos de US$ 1 por tarefa — sugere que há um valor real de engenharia em saber quando parar e escalar, em vez de queimar tokens em uma trajetória falha.
Os NPCs colegas simulados são uma primitiva de design interessante que mapeia diretamente para a restrição real do Beancount: agentes que ignoram o feedback do usuário e prosseguem com suposições erradas são mais perigosos do que agentes que param e perguntam. A descoberta do benchmark de que os modelos atuais falham em extrair informações úteis das mensagens dos colegas deve ser um insumo direto de design para qualquer agente de escrita que interaja com um contador humano no meio da sessão.
O que ler a seguir
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — o framework de agentes subjacente ao TheAgentCompany; arXiv:2407.16741, ICLR 2025. Entender a arquitetura CodeAct + navegação do OpenHands esclarece quais capacidades do agente são básicas versus o que o TheAgentCompany está realmente testando.
- DocFinQA: A Long-Context Financial Reasoning Dataset — estende 7.437 perguntas do FinQA para arquivos completos da SEC com média de 123 mil palavras; arXiv:2401.06915, ACL 2024. Testa diretamente o raciocínio financeiro de documentos longos que as 12 tarefas de finanças do TheAgentCompany não conseguem amostrar adequadamente.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Uma pesquisa de 2025 do cenário de avaliação de agentes que coloca o TheAgentCompany em contexto ao lado do WebArena, OSWorld e SWE-bench, e traça como as escolhas de design de benchmark moldam o que podemos concluir sobre a capacidade do agente.
