WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний
После прочтения оценки τ-bench для агентов, вызывающих инструменты (tool-calling agents), в сферах розничной торговли и авиаперевозок, мне захотелось углубиться в корпоративное ПО — ту область, где агенты в стиле Beancount действительно должны работать. WorkArena (Drouin et al., ServiceNow Research, 2024) тестирует LLM веб-агентов на 33 реальных задачах внутри корпоративной платформы ServiceNow, что делает его самым прямым существующим тестом того, могут ли современные модели автоматизировать подлинные рабочие процессы интеллектуального труда, а не синтетические игрушечные сценарии.
О статье
«WorkArena: Насколько веб-агенты способны решать типичные задачи интеллектуального труда?» представляет бенчмарк из 33 задач и 19 912 уникальных инстансов, взятых из платформы корпоративного ПО ServiceNow. Задачи охватывают шесть категорий, которые работники интеллектуального труда действительно выполняют ежедневно: фильтрация и сортировка списков, заполнение форм, поиск в базах знаний, заказ в каталогах услуг, чтение дашбордов и навигация по меню. Наряду с бенчмарком авторы выпускают BrowserGym — среду для оценки, которая предоставляет агентам богатые мультимодальные наблюдения (HTML, деревья доступности, скриншоты), а также стандартизированное пространство действий для веб-взаимодействий.
Основной вопрос, который ставится в статье, заключается в том, могут ли современные LLM справляться со структурированными, многоэтапными, ограниченными пользовательским интерфейсом рабочими процессами, которых требует реальное корпоративное ПО. Это не задачи открытого поиска или одношаговые ответы на вопросы; это последовательности кликов, заполнения форм и операций фильтрации, направленные на достижение цели, которые оставляют проверяемые следы в живой системе. Именно это свойство проверки по состоянию системы делает WorkArena значимо отличным от большинства агентских бенчмарков, и это именно то свойство, которому должен соответствовать агент для записи в Beancount.
Ключевые идеи
- GPT-4o достигает 42,7% в целом на WorkArena с использованием цепочки рассуждений (chain-of-thought); GPT-3.5-Turbo справляется лишь с 6,1%, а открытая модель Llama3-70B-Instruct останавливается на 17,9% — разрыв в 25 пунктов между передовыми проприетарными и от крытыми моделями.
- Задачи по фильтрации списков — это глухая стена: 0% для каждой модели. Виджет списков ServiceNow использует нестандартный HTML, с которым ни один из протестированных агентов не смог надежно взаимодействовать. Сортировка почти так же плоха: GPT-4o достигает лишь 10% в задачах сортировки списков.
- Задачи каталога услуг на удивление выполнимы: GPT-4o достигает 77,8% в девяти задачах каталога услуг, где интерфейс более традиционен, а требуемые действия тесно коррелируют с паттернами заполнения форм, которые модель, вероятно, видела в обучении.
- Мультимодальные наблюдения почти не помогают. Добавление скриншотов к наблюдениям GPT-4o дало «очень незначительные улучшения производительности», что указывает на то, что узким местом является понимание структуры интерфейса, а не отсутствие визуальных данных.
- Цепочка рассуждений (CoT) критически важна. Ее отсутствие снижает показатели Llama3-70B примерно на 10 пунктов на WorkArena, подтверждая, что многоэтапные веб-задачи требуют явных промежуточных рассуждений, а не просто предсказания действий.
- Механизмы памяти дали обратный эффект. Включение флага
use_think_historyзаставляло агентов «придерживаться решений, принятых на ранних этапах, даже ошибочных» — конкретный пример жесткой приверженности, маскирующейся под планирование.
Что подтверждается, а что нет
Самое ценное свойство бенчмарка — его запуск на живом инстансе ServiceNow: успех определяется тем, изменилось ли состояние системы корректно, а не простым сопоставлением строк с ожидаемым результатом. Это делает 0% в задачах фильтрации списков особенно показательным — здесь некуда спрятаться. Разнообразие задач также действительно репрезентативно: шесть категорий охватывают весь спектр того, на что тратят время работники интеллектуального труда, а не выборочные демонстрационные задачи.
Что мне кажется менее удовлетворительным, так это разбор сценариев сбоев. Авторы выявили, что экзотические структуры HTML, вложенные iFrame и shadow DOM ломают агентов, но не проводят систематического анализа того, какие именно структурные особенности виноваты и в какой пропорции. Проблема размера DOM (деревья HTML от 40 до 500 тысяч токенов) упоминается, но не анализируется глубоко: мы не знаем, восстановится ли производительность при использовании суммаризации, разбивки на чанки или наблюдений только за деревом доступности. Архитектура с одним агентом также не сравнивается с декомпозированной мультиагентной схемой (например, разделение на селектор и исполнитель), поэтому неясно, является ли результат 0% при фильтрации списков проблемой интерфейса, проблемой планирования или и тем, и другим.
Также стоит поднять вопрос о валидности самой платформы. ServiceNow — это специфический стек корпоративного ПО с идиосинкразическими паттернами UI. Результаты говорят нам много об агентах для ServiceNow и несколько меньше о корпоративных веб-агентах в целом. Обобщение неудачи с фильтрацией списков, скажем, на интерфейс beanquery или инструмент для работы с электронными таблицами требует независимых доказательств.
Почему это важно для ИИ в финансах
Результаты WorkArena — это калибровочная точка, к которой я постоянно возвращаюсь в повестке автоматизации Beancount. Паттерн неудач поучителен: агенты хорошо справляются с задачами, похожими на веб-формы (каталог услуг, 77,8%), и терпят крах в задачах, требующих точного взаимодействия со структурированными нестандартными виджетами UI (фильтрация списков, 0%). Агент Beancount, занимающийся вводом записей в журнал, столкнется со смешанной картиной: часть с преобразованием естественного языка в транзакцию напоминает задачи по заполнению форм, где производительность приемлема; но части, связанные с запросами, фильтрацией и сверкой — поиск конкретных записей, сортировка по дате, применение фильтров счетов — гораздо больше похожи на задачи со списками, где всё ломается.
Статья также подкрепляет урок из логов CRITIC и Reflexion : внешняя проверка важнее внутренних рассуждений. Задачи WorkArena завершаются успешно или неудачно в зависимости от состояния системы, и эта чистая истина (ground truth) делает бенчмарк честным. Для агентов записи в Beancount это весомый аргумент в пользу архитектуры, в которой каждое внесенное в журнал изменение проверяется с помощью Python API Beancount перед принятием, а не просто проверяется собственными рассуждениями агента. Потолок в 42,7% у лучшей модели на ICML 2024 говорит о том, что даже для обычных задач корпоративного интерфейса разрыв между «иногда полезным» и «надежно автоматизируемым» всё еще огромен.
Что почитать дальше
- WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — продолжение от той же команды ServiceNow с 682 композиционными задачами, требующими планирования, арифметических рассуждений и поиска по нескольким документам; напрямую отвечает на вопрос, выявляе т ли масштабирование сложности задач новые режимы сбоев помимо преграды во взаимодействии с UI.
- WebArena (arXiv:2307.13854, ICLR 2024) — сопутствующий бенчмарк веб-агентов общего назначения (812 задач в сфере электронной коммерции, форумов, хостинга кода, CMS), где GPT-4 достигает лишь 14,41% против 78% у человека; помещает показатели WorkArena в более широкий ландшафт веб-агентов.
- OSWorld (arXiv:2404.07972, NeurIPS 2024) — расширяет оценку корпоративной автоматизации на полноценные десктопные среды, включая реальные приложения (LibreOffice, VS Code, Chrome); самый комплексный тест того, являются ли режимы сбоев WorkArena специфичными для UI или отражают более глубокий разрыв в компетентности агентов.
