Перейти к контенту

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Вчера я читал о WebArena, которая оценила успех автономных веб-агентов примерно в 14% против 78% у людей. OSWorld (Xie et al., NeurIPS 2024) ставит тот же вопрос для полноценного рабочего стола: Ubuntu, Windows, macOS и реальные приложения с графическим интерфейсом (GUI). Ответ оказался еще более отрезвляющим, а характер отказов достаточно специфичен, чтобы заслуживать отдельного внимания.

Статья

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld создает бенчмарк из 369 задач, основанных на реальных настольных приложениях: LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC, а также рабочих процессах, охватывающих несколько программ. Каждая задача сопровождается скриптом программной оценки, который проверяет фактическое состояние системы после выполнения — никаких эвристик сопоставления строк или оценки с помощью LLM (LLM-as-judge). Стенд использует виртуальные машины, поэтому задачи начинаются с воспроизводимого состояния, и охватывает все три основные операционные системы.

Авторы тестируют ряд передовых моделей — GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent — в четырех конфигурациях ввода: только скриншот, только дерево специальных возможностей (accessibility tree), скриншот плюс дерево специальных возможностей и Set-of-Marks (SoM, где интерактивные элементы помечаются числовыми метками перед действием модели).

Ключевые идеи

  • Люди, выполняющие незнакомые задачи, справляются в 72,36% случаев. Лучшая модель на момент публикации достигла 12,24%. Разрыв составляет около 60 процентных пунктов.
  • Производительность топовых моделей (GPT-4V, Gemini-Pro-Vision) при использовании только скриншотов колеблется в районе 5,26%–5,80%. Это означает, что добавление структурированного контекста примерно удваивает успех, но все равно оставляет 87% неудач.
  • Задачи с рабочими процессами в нескольких приложениях являются самой сложной категорией с потолком в 6,57%, по сравнению с задачами ОС/CLI, где текстовые интерфейсы облегчают заземление (grounding).
  • Дерево специальных возможностей и Set-of-Marks помогают, но их польза зависит от модели: авторы отмечают, что они также могут вносить путаницу, перегружая модель нерелевантной структурой.
  • Прогресс после публикации был стремительным: Agent S (GPT-4o, иерархическая память) достиг 20,58%; ARPO на основе обучения с подкреплением (RL) поднял планку до 29,9%; Agent S3 (Simular AI, 2025) заявляет о 62,6% в режиме 100 шагов, приближаясь к паритету с человеком. Но большая часть этого роста обусловлена улучшенными моделями заземления и тонкой настройкой через RL, а не базовыми промптами для LLM, которые изначально тестировались в OSWorld.
  • Анализ 550 ошибок: более 75% — это неточности кликов мышью: агент рассуждает правильно, но кликает не по тому пикселю. Это не сбой в рассуждениях (reasoning), а сбой визуально-моторного заземления (visuomotor grounding).

Что подтверждается, а что — нет

Дизайн бенчмарка по-настоящему строгий. Оценка на основе исполнения в реальных виртуальных машинах с использованием 134 различных скриптов проверки устраняет нечеткие суждения, которые мешают многим бенчмаркам агентов. Это значительный методологический вклад, и именно поэтому цифра 12,24% заслуживает доверия.

Более сложный вопрос заключается в том, что именно измеряют эти 12,24%. Распределение задач смещено в сторону приложений с насыщенным GUI, где точность клика до пикселя имеет огромное значение. Агент для Beancount, работающий полностью в CLI или создающий текстовые файлы, вероятно, показал бы себя в этом бенчмарке гораздо лучше, чем агент, занимающийся форматированием таблиц в LibreOffice. Итоговый показатель объединяет очень разные когнитивные требования — пространственно-моторный контроль, многошаговое планирование, знание предметной области — и приписывание его единственному утверждению «агенты не умеют пользоваться компьютерами» является упрощением.

Вывод о том, что «set-of-marks может вводить некоторые модели в заблуждение», интересен, но недостаточно изучен. В статье отмечается дисперсия результатов без полного объяснения того, каким типам задач или моделей это помогает, а каким вредит. Это кажется важнейшим вопросом для практиков, проектирующих интерфейсы агентов, но ему уделен всего один абзац.

Я также скептически отношусь к тому, насколько выборка из 369 задач покрывает «длинный хвост» реальных рабочих процессов. Задачи отобраны исследователями, которые неизбежно склоняются к тому, что можно проверить. По-настоящему неоднозначные задачи бухгалтерского учета в реальном мире — например, «привести в порядок эти противоречивые названия контрагентов» — трудно оценить программно, и они, вероятно, представлены недостаточно.

Почему это важно для финансового ИИ

Вывод о том, что 75% неудач связаны с ошибками заземления, имеет прямое отношение к агентам Beancount, даже несмотря на то, что Beancount работает на текстовом уровне. Глубинная закономерность — агенты планируют правильно, но исполняют неверно — проецируется на ошибки записи в леджер, когда агент генерирует правильную транзакцию, но записывает ее не на тот счет или с опечаткой в дате. В обоих случаях узким местом является точность исполнения, а не стратегическое рассуждение.

Производительность в многозадачных рабочих процессах (6,57%) — это цифра, которую я нахожу наиболее удручающей для Bean Labs. Реальные бухгалтерские процессы почти всегда охватывают несколько приложений: экспорт CSV из банка, файл Beancount, таблицу сверки, PDF-квитанцию. Если GUI-агенты катастрофически не справляются с координацией между приложениями даже в специально отобранных задачах, то агент Beancount, которому необходимо оркестровать импорт, редактирование леджера и создание отчетов, сталкивается со структурно схожей проблемой — даже в контексте CLI, где не нужно кликать по пикселям.

Хорошая новость из траектории после публикации статьи (Agent S3 с результатом 62,6%) заключается в том, что это не фундаментальные барьеры. Они разрешимы с помощью лучших моделей заземления и тонкой настройки RL. Но этот прогресс потребовал 18 месяцев и значительных вычислительных мощностей для обучения RL, что не является базовым уровнем возможностей, который агент Beancount может ожидать от обычной промпт-модели.

Что почитать дальше

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — расширяет OSWorld на устройства Android с динамически параметризуемыми задачами, что актуально для мобильных интерфейсов Beancount.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — адаптирует OSWorld для Windows с более чем 150 задачами; независимо подтверждает, что разрыв сохраняется во всех операционных системах.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — композиционная архитектура «универсал-специалист», которая значительно продвигает уровень современных технологий; стоит изучить эту архитектуру перед проектированием многошагового планировщика для Beancount.