Перейти до основного вмісту

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Учора я читав про WebArena, де автономні веб-агенти показали успішність приблизно 14% проти 78% у людей. OSWorld (Xie et al., NeurIPS 2024) ставить те саме питання щодо повноцінного робочого столу: Ubuntu, Windows, macOS, реальні додатки з графічним інтерфейсом. Відповідь виявилася ще більш протверезною, а характер помилок — достатньо специфічним, щоб заслуговувати на окрему увагу.

Стаття

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld створює бенчмарк із 369 завдань, що базуються на реальних десктопних додатках: LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC та робочих процесах, що охоплюють кілька програм. Кожне завдання супроводжується скриптом програмної оцінки, який перевіряє фактичний стан системи після виконання — жодних евристик зіставлення рядків або використання LLM як судді. Система використовує віртуальні машини, тому завдання починаються з відтворюваного стану, і вона охоплює всі три основні операційні системи.

Автори тестують низку провідних моделей — GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent — у чотирьох конфігураціях вводу: лише скріншот, лише дерево доступності (accessibility tree), скріншот плюс дерево доступності, а також набір міток (Set-of-Marks, SoM), де на інтерактивні елементи накладаються числові мітки перед дією моделі.

Основні ідеї

  • Люди, виконуючи незнайомі завдання, досягають успіху у 72,36% випадків. Найкраща модель на момент публікації досягає 12,24%. Розрив становить ~60 відсоткових пунктів.
  • Ефективність використання лише скріншотів для топових моделей (GPT-4V, Gemini-Pro-Vision) становить близько 5,26%–5,80%. Це означає, що додавання структурованого контексту приблизно подвоює успіх, але все одно залишає 87% невдач.
  • Завдання, що передбачають роботу в кількох додатках, є найскладнішою категорією з межею успішності 6,57%, порівняно із завданнями ОС/CLI, де текстові інтерфейси полегшують прив'язку до контексту.
  • Дерево доступності та Set-of-Marks допомагають, але їхня користь залежить від моделі: автори зазначають, що вони також можуть вносити плутанину, перевантажуючи модель нерелевантною структурою.
  • Прогрес після публікації був стрімким — Agent S (GPT-4o, ієрархічна пам'ять) досяг 20,58%; ARPO на основі навчання з підкріпленням (RL) підняв показник до 29,9%; Agent S3 (Simular AI, 2025) заявляє про 62,6% у режимі 100 кроків, наближаючись до паритету з людиною. Проте більшість цих здобутків пов'язані з кращими моделями заземлення та тонким налаштуванням через RL, а не з базовими LLM, які OSWorld тестував спочатку.
  • Аналіз 550 помилок: понад 75% — це неточності кліків мишею. Агент міркує правильно, але натискає не на той піксель. Це не помилка логіки; це помилка візуально-моторного заземлення.

Що підтверджується, а що — ні

Дизайн бенчмарку справді суворий. Оцінка на основі виконання в реальних віртуальних машинах за допомогою 134 окремих скриптів усуває розмиті судження, які є проблемою багатьох тестів агентів. Це значний методологічний внесок, і саме тому цифра 12,24% заслуговує на довіру.

Складніше питання полягає в тому, що саме вимірюють ці 12,24%. Розподіл завдань зміщений у бік додатків із насиченим графічним інтерфейсом, де величезне значення має точність кліків по пікселях. Агент Beancount, який працює повністю в CLI або створює текстові файли, ймовірно, показав би значно кращі результати в цьому бенчмарку, ніж агент, що займається форматуванням електронних таблиць у LibreOffice. Головна цифра об'єднує в собі дуже різні когнітивні вимоги — просторовий моторний контроль, багатоступеневе планування, знання предметної області — і приписування цього єдиному твердженню «агенти не вміють користуватися комп'ютерами» є спрощенням.

Висновки про те, що «Set-of-Marks може вводити в оману деякі моделі», цікаві, але недостатньо досліджені. У статті відзначається розбіжність результатів без повного пояснення того, яким типам завдань або моделей це допомагає, а яким — шкодить. Це здається найважливішим питанням для практиків, які розробляють інтерфейси для агентів, але йому присвячено лише один абзац.

Я також скептично ставлюся до того, наскільки вибірка з 369 завдань охоплює реальні робочі процеси. Завдання відбиралися дослідниками, які неминуче схилялися до того, що можна перевірити. Справді неоднозначні бухгалтерські завдання з реального світу — наприклад, «упорядкувати ці непослідовні назви контрагентів» — важко оцінити програмно, і вони, ймовірно, представлені недостатньо.

Чому це важливо для фінансового ШІ

Висновок про те, що 75% невдач — це помилки заземлення, має пряме відношення до агентів Beancount, навіть якщо Beancount існує на текстовому рівні. Глибша закономірність — агенти планують правильно, але виконують неправильно — переноситься на помилки зворотного запису в книгу обліку, коли агент генерує правильну транзакцію, але записує її не на той рахунок або з помилкою в даті. В обох випадках вузьким місцем є точність виконання, а не стратегічне мислення.

Показник успішності в робочих процесах із кількома додатками (6,57%) здається мені найбільш протверезним для Bean Labs. Реальні бухгалтерські процеси майже завжди охоплюють кілька програм: експорт банківського CSV, файл Beancount, таблицю звірки, PDF-квитанцію. Якщо GUI-агенти катастрофічно не справляються з координацією між додатками навіть у підготовлених завданнях, то агент Beancount, якому потрібно координувати імпорт, редагування книги обліку та створення звітів, стикається зі структурно подібним викликом — навіть у контексті CLI, де немає потреби клікати по пікселях.

Гарна новина з післяпублікаційної траєкторії (Agent S3 з 62,6%) полягає в тому, що ці бар'єри не є фундаментальними. Вони вирішуються за допомогою кращих моделей заземлення та тонкого налаштування RL. Але цей прогрес вимагав 18 місяців і значних обчислювальних потужностей для навчання RL, що не є базовим рівнем можливостей, на який може розраховувати агент Beancount, побудований на промптах до стандартних провідних моделей.

Що почитати далі

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — розширює OSWorld на пристрої Android із динамічно параметризованими завданнями, що актуально для мобільних інтерфейсів Beancount.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — адаптує OSWorld для Windows із понад 150 завданнями; незалежно підтверджує, що розрив зберігається в різних операційних системах.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — композиційна архітектура «генераліст-спеціаліст», яка значно просуває сучасний стан технологій; варто вивчити цю архітектуру перед розробкою багатоступеневого планувальника для Beancount.