AI Agents

Все про AI Agents

1 стаття

Autonomous AI agent benchmarks and evaluations for real-world task completion

Назад до всіх публікацій Переглянути всі теги

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реальних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.

Почніть роботу з Beancount.io

Візьміть фінанси під контроль з нашою відкритою системою подвійного запису. Почніть свій Ledger сьогодні.

Почати безкоштовно Переглянути ціни

Побудовано на прозорості • Контроль версій • На базі ШІ

Все про AI Agents

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація