AI Agents

Все о AI Agents

1 статей

Autonomous AI agent benchmarks and evaluations for real-world task completion

Вернуться ко всем записям Посмотреть все теги

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.

Все о AI Agents

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация