Преминете към основното съдържание

OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Вчера прочетох WebArena, която постави автономните уеб агенти на приблизително 14% успех срещу 78% базова линия при хората. OSWorld (Xie et al., NeurIPS 2024) задава същия въпрос за целия десктоп: Ubuntu, Windows, macOS, реални GUI приложения. Отговорът е, ако не друго, още по-отрезвяващ — а начинът на провал е достатъчно различен, за да бъде интересен сам по себе си.

Документът

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld изгражда бенчмарк от 369 задачи, базирани на реални десктоп приложения: LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC и работни процеси с множество приложения. Всяка задача идва с програмен скрипт за оценка, който проверява действителното състояние на системата след изпълнение — без евристики за съпоставяне на низове, без LLM като съдия. Настройката използва виртуални машини, така че задачите да започват от възпроизводимо състояние, и обхваща и трите основни операционни системи.

Авторите тестват редица водещи модели — GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent — в четири конфигурации на входа: само екранна снимка, само дърво на достъпност, екранна снимка плюс дърво на достъпност и Set-of-Marks (SoM, където интерактивните елементи се покриват с цифрови етикети, преди моделът да действа).

Ключови идеи

  • Хората при непознати задачи успяват в 72,36% от случаите. Най-добрият модел към момента на подаване постига 12,24%. Разликата е ~60 процентни пункта.
  • Представянето само с екранна снимка за топ моделите (GPT-4V, Gemini-Pro-Vision) е около 5,26%–5,80% — което означава, че добавянето на структуриран контекст грубо удвоява успеха, но все пак оставя 87% неуспех.
  • Задачите с работен процес в множество приложения са най-трудната категория с таван от 6,57%, в сравнение със задачите за ОС/CLI, където текстовите интерфейси улесняват заземяването.
  • Дървото на достъпност и Set-of-Marks помагат, но тяхната полза зависи от модела: авторите съобщават, че те също могат да внесат объркване, като претоварят модела с ирелевантна структура.
  • Прогресът след публикацията е бърз — Agent S (GPT-4o, йерархична памет) достигна 20,58%; базираният на RL ARPO достигна 29,9%; Agent S3 (Simular AI, 2025) твърди 62,6% в настройка със 100 стъпки, доближавайки се до паритет с хората. Но повечето от тези печалби идват от по-добри модели за заземяване и RL фина настройка, а не от базовите LLMs с промптване, които OSWorld първоначално тества.
  • Анализ на грешките при 550 неуспеха: над 75% са неточности в кликванията с мишката — агентът разсъждава правилно, но кликва върху грешния пиксел. Това не е провал в разсъжденията; това е провал във визуомоторното заземяване.

Какво издържа проверката — и какво не

Дизайнът на бенчмарка е наистина строг. Оценката, базирана на изпълнение върху реални виртуални машини със 134 отделни скрипта за оценка, премахва неясните преценки, които преследват много бенчмаркове за агенти. Това е значителен методологичен принос и затова числото (12,24%) е достоверно.

По-трудният въпрос е какво всъщност измерва тези 12,24%. Разпределението на задачите е изкривено към приложения с тежък GUI, където прецизното кликване върху пиксели е от огромно значение. Агент за Beancount, който работи изцяло в CLI или извежда текстови файлове, вероятно би се представил много по-добре в този бенчмарк от агент, който форматира електронни таблици в LibreOffice. Основното число обединява много различни когнитивни изисквания — пространствен моторен контрол, многоетапно планиране, познания в областта — и приписването му на едно твърдение „агентите не могат да използват компютри“ е опростяване.

Констатацията, че „set-of-marks може да подведе някои модели“, е интересна, но недостатъчно изследвана. Статията отбелязва вариациите, без напълно да обяснява какви видове задачи или модели се подпомагат срещу тези, на които се вреди. Това изглежда като най-важния въпрос за практиците, проектиращи потребителски интерфейси за агенти, а на него е посветен само един параграф.

Също така съм скептичен по отношение на това доколко извадката от 369 задачи обхваща дългата опашка от реални работни процеси. Задачите са подбрани от изследователи, които неизбежно клонят към задачи, които са проверими. Истински двусмислени счетоводни задачи от реалния свят — „изчистете тези непоследователни имена на търговци“ — са трудни за програмна оценка и вероятно са недостатъчно представени.

Защо това е важно за финансовия ИИ

Констатацията, че 75% от неуспехите са грешки при заземяването, е пряко относима към Beancount агентите, въпреки че Beancount живее в текстовия слой. По-дълбокият модел — агентите планират правилно, но изпълняват неправилно — се проявява при неуспехи в записването в главната книга (ledger write-back), където агентът генерира правилната трансакция, но я записва в грешна сметка или с разменени цифри в датата. И в двата случая тясното място е прецизното изпълнение, а не стратегическото мислене.

Резултатът при работни процеси с множество приложения (6,57%) е цифрата, която намирам за най-отрезвяваща за Bean Labs. Реалните счетоводни работни процеси почти винаги обхващат множество приложения: експорт на CSV от банка, Beancount файл, електронна таблица за равнение, PDF касова бележка. Ако GUI агентите се затрудняват катастрофално при координацията между множество приложения дори при подбрани задачи, един Beancount агент, който трябва да организира импортиране, редакции на главната книга и генериране на отчети, е изправен пред структурно подобно предизвикателство — дори в CLI контекст, където не е включено кликване върху пиксели.

Добрата новина от траекторията след статията (Agent S3 при 62,6%) е, че това не са фундаментални бариери. Те са решими с по-добри модели за заземяване и RL фина настройка. Но този прогрес изисква 18 месеца и значителни изчислителни ресурси за RL обучение, което не е базовата линия от възможности, която един Beancount агент може да приеме от промптван водещ модел.

Какво да прочетете след това

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — разширява OSWorld към устройства с Android с динамично параметризирани задачи, подходящо за мобилни интерфейси на Beancount.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — адаптира OSWorld към Windows със 150+ задачи; независимо потвърждава, че разликата продължава да съществува в различните операционни системи.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — композиционна архитектура от общ характер и специализирана такава, която значително подобрява съвременното ниво на технологиите; струва си да разберете архитектурата, преди да проектирате Beancount плановик за няколко стъпки.