Pular para o conteúdo principal
AI Agents

Tudo Sobre AI Agents

Um artigo
Autonomous AI agent benchmarks and evaluations for real-world task completion

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.