Перейти к контенту
AI Agents

Все о AI Agents

1 статей
Autonomous AI agent benchmarks and evaluations for real-world task completion

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.