WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов
Бенчмарк WebArena из 812 задач является прямым предшественником WorkArena, о котором я писал вчера. Чтение этих работ подряд проясняет ключевое различие: WorkArena измеряет интеллектуальную работу на предприятии в рамках одной платформы (ServiceNow), в то время как WebArena устанавливает базовый уровень возможностей веб-агентов в реалистичном программном обеспечении с открытым исходным кодом. Я хочу точно понять этот базовый уровень, прежде чем размышлять об агентах Beancount, которые со временем будут работать в браузерных средах.
Научная работа
Zhou et al. (ICLR 2024, arXiv:2307.13854) представляют WebArena — воспроизводимый бенчмарк из 812 задач на базе четырех селф-хост сайтов: интернет-магазина Magento, социального форума Postmill, инстанса GitLab и административного портала CMS Magento, дополненных зеркалом OpenStreetMap и офлайн-копией Википедии. В отличие от синтетических игрушечных задач MiniWoB++, каждый сайт WebArena работает на реальном ПО с открытым исходным кодом в аутентичном масштабе: примерно 90 000 товаров, 95 подразделов форума со 127 000+ постов и 300 Git-репозиториев на 1 000 учетных записей разработчиков. Задачи делятся на три категории — поиск информации, навигация по сайту и изменение контента/конфигурации — и оцениваются по функциональной корректности: появился ли целевой результат в базе данных или соответствует ли он точному/нечеткому ответу, а не по тому, следовал ли агент ожидаемой последовательности действий.
Ключевые идеи
- GPT-4 достигает 14,41%; люди — 78,24%. Разрыв составляет 63,8 процентных пункта. GPT-3.5 набирает 8,75%, а базовая модель Google Text-Bison-001 — всего 5,05%. Промптинг в стиле «цепочка рассуждений» (CoT) добавляет GPT-4 примерно 2,3 балла — полезно, но не критично.
- Самая распространенная ошибка — ложная невозможность. GPT-4 ошибочно пометил примерно 54,9% выполнимых задач (428 из 812) как невыполнимые, возвращая [N/A] вместо попытки их решения. Это доминирующий тип сбоя, а не зашумленные последовательности действий или ошибки инструментов.
- Функциональная корректность, а не воспроизведение траектории. Оценка проверяет четыре типа доказательств: точное соответствие, проверку обязательных ключевых слов, нечеткое соответствие на базе LLM и программную валидацию через SQL-запросы к базе данных или JavaScript. Это делает метрику устойчивой к парафразу, но всё еще чувствительной к неоднозначным формулир овкам задач.
- Контейнеризированный селф-хостинг обеспечивает воспроизводимость. Все четыре сайта поставляются в виде Docker-контейнеров, что позже было заимствовано другими бенчмарками (WorkArena, OSWorld). Вы можете сбросить состояние и гарантировать идентичные начальные условия, что невозможно при работе с «живым» вебом.
- Шаблоны задач позволяют избежать слепого запоминания. 241 шаблон дает 812 конкретных задач (в среднем 3,3 варианта на шаблон), что немного помогает, но не мешает целеустремленной модели выучить структуру шаблона вместо принципов веб-навигации.
- Реальная сложность DOM на порядки выше, чем в MiniWoB++. Типичная страница WebArena сериализуется в тысячи токенов; в смежных работах сообщается о деревьях DOM, превышающих 100 000 токенов для сложных портальных интерфейсов.
Что подтверждается, а что — нет
Основн ая методология верна: реальное ПО, оценка по результату и воспроизводимые среды — это именно то, что нужно. Показатель 14,41% оказался устойчивым при независимых воспроизведениях, а таксономия ошибок (ложная невыполнимость, зацикливание, робкий отказ) была подтверждена множеством последующих работ.
Однако ограничения существенны. Во-первых, 812 задач, производных от 241 шаблона, означают, что бенчмарк конечен и может быть систематически «заучен»; агент, запомнивший структуру шаблонов, может переобучиться без способности к генерализации. WebArena Verified (2024–2025) обнаружила и исправила несогласованные проверки, что означает, что часть исходных 14,41% могла отражать шум оценки, а не чистые способности модели. Во-вторых, четыре типа сайтов — e-commerce, форум, хостинг кода, CMS — это правдоподобная, но не репрезентативная выборка интернета. Здесь нет корпоративных SaaS, перегруженных формами государственных порталов или банковских интерфейсов. В-третьих, бенчмарк полностью игнорирует безопасность и доверие: агент, успешно выполнивший команду «удалить этот пост», получает одинаковый балл независимо от того, удалил ли он нужный пост или еще десять лишних. ST-WebAgentBench (2024) был разработан специально для восполнения этого пробела.
Вывод о ложной невыполнимости — самый интересный и недооцененный результат. Он предполагает, что LLM настроены избегать действий при неопределенности (разумная установка для моделей, обученных на обратной связи от людей), но эта консервативная калибровка в корне неверна для агентных задач, где бездействие само по себе является дорогостоящей ошибкой.
Почему это важно для ИИ в финансах
Разрыв между 14,41% и 78,24% напрямую калибрует то, чего может достичь браузерный агент Beancount сегодня без специализированной инженерной подготовки. Если GPT-4 не может надежно выполнять рутинные веб-задачи — заказ товара, создание тикета в GitLab, публикацию на форуме — ему определенно нельзя доверять навигацию по веб-интерфейсу Fava без присмотра. Это не повод для отчаяния; это мотивирует создание специализированных интерфейсов и структурированных пространств действий, эффективность которых для редактирования кода продемонстрировал SWE-agent. Правильный урок заключается в том, что важны не «голые» способности LLM в общих задачах, а то, насколько среда спроектирована для поддержки агента.
Проблема ложной невыполнимости имеет прямой аналог в бухгалтерии: агент, который возвращает «Я не могу определить, является ли эта транзакция дубликатом» вместо проверки, ошибается тем же консервативным, но неверным способом. Агентам с обратной записью (write-back) нужен явный этап проверки выполнимости, который заставляет принимать решение, а не воздерживаться, в сочетании с механизмами отката (rollback), чтобы ошибочное действие было обратимым.
Для Beancount в частности, часть WebArena с CMS и админ-панелью (Magento admin) является ближайшим структурным аналогом веб-интерфейса Fava: многостраничный интерфейс администратора со сложными формами, вложенной навигацией и состоянием, сохраняющимся между сессиями. Потолок в 14,41% для этого класса задач — это то, что я должен принимать как исходное допущение, пока мы не продемонстрируем лучший результат.
Что почитать дальше
- VisualWebArena (Koh et al., 2024, arXiv:2401.13649) — расширяет WebArena для мультимодальных агентов, использующих скриншоты, что важно для Fava, так как не все значимые состояния отражены в DOM.
- OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) — бенчмарк для полноценной десктопной среды; 12,24% для лучшей мультимодальной модели против 72,36% у человека, что переносит разрыв в способностях на автоматизацию GUI за пределами браузера.
- ST-WebAgentBench (arXiv:2410.06703) — напрямую устраняет пробел в безопасности WebArena, измеряя, соблюдают ли веб-агенты политические ограничения при выполнении задач.
