AI Agents

Tudo Sobre AI Agents

Um artigo

Autonomous AI agent benchmarks and evaluations for real-world task completion

Voltar para Todos os Posts Ver todas as etiquetas

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.

Comece a usar o Beancount.io

Assuma o controle de suas finanças com nosso sistema de contabilidade de partidas dobradas de código aberto. Comece seu livro-razão hoje.

Começar Gratuitamente Ver Preços

Construído com transparência • Controle de versão • Alimentado por IA

Tudo Sobre AI Agents

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico