Преминете към основното съдържание

WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Бенчмаркът WebArena с 812 задачи е прекият предшественик на WorkArena, който разгледах вчера. Четенето им едно след друго изяснява ключова разлика: WorkArena измерва интелектуалната работа в корпоративна среда в рамките на една платформа (ServiceNow), докато WebArena установява базовото ниво на способностите на общите уеб агенти в реалистичен софтуер с отворен код. Искам да разбера това базово ниво прецизно, преди да мисля за Beancount агенти, които в крайна сметка ще оперират в браузърна среда.

Документът

2026-06-14-webarena-realistic-web-environment-autonomous-agents

Zhou et al. (ICLR 2024, arXiv:2307.13854) представят WebArena, възпроизводим бенчмарк от 812 задачи в четири хоствани самостоятелно уебсайта: електронен магазин Magento, социален форум Postmill, инстанция на GitLab и CMS административен портал на Magento, допълнени от огледален сайт на OpenStreetMap и офлайн копие на Wikipedia. За разлика от синтетичните елементарни задачи на MiniWoB++, всеки сайт в WebArena работи с истински софтуер с отворен код в автентичен мащаб: приблизително 90 000 продукта, 95 подфорума с над 127 000 публикации и 300 Git хранилища в 1000 акаунта на разработчици. Задачите обхващат три категории — търсене на информация, навигация в сайта и промени в съдържанието/конфигурацията — и се оценяват по функционална коректност: дали желаният резултат се появява в базата данни или съвпада с точен/приблизителен отговор, а не дали агентът е следвал очакваната последователност от действия.

Ключови идеи

  • GPT-4 достига 14,41%; хората достигат 78,24%. Разликата е 63,8 процентни пункта. GPT-3.5 постига резултат 8,75%, а базовата линия на Google Text-Bison-001 е едва 5,05%. Chain-of-thought подканите добавят приблизително 2,3 пункта за GPT-4 — полезно, но не и трансформиращо.
  • Най-честият провал е фалшивата неосъществимост. GPT-4 неправилно е маркирал приблизително 54,9% от постижимите задачи (428 от 812) като неосъществими, връщайки [N/A] вместо да се опита да ги изпълни. Това е доминиращият режим на отказ, а не шумните последователности от действия или грешки в инструментите.
  • Функционална коректност, а не възпроизвеждане на траекторията. Оценката проверява четири типа доказателства: точно съвпадение, проверка на задължителни ключови думи, LLM-базирано приблизително съвпадение и програмна валидация чрез заявки към базата данни или JavaScript. Това прави метриката устойчива на парафразиране, но все пак податлива на неясни спецификации на задачите.
  • Контейнеризираният самостоятелен хостинг позволява възпроизводимост. И четирите сайта се доставят като Docker контейнери, което по-късните бенчмаркове (WorkArena, OSWorld) копират. Можете да нулирате състоянието и да гарантирате идентични начални условия, нещо невъзможно при извличане на данни от живи уебсайтове.
  • Шаблоните за задачи избягват сляпото запаметяване. 241 шаблона генерират 812 конкретни задачи (по 3,3 варианта всеки), което помага до известна степен, но не пречи на модел, който е решен, да научи шаблоните, вместо принципите на уеб навигацията.
  • Реалната сложност на DOM е с порядъци по-голяма от MiniWoB++. Типична страница в WebArena се сериализира в хиляди токени; свързани работи съобщават за DOM дървета, надвишаващи 100 000 токена за сложни изгледи на портали.

Какво остава в сила — и какво не

Основната методология е солидна: истински софтуер, оценка, базирана на резултатите, и възпроизводима среда са абсолютно правилни решения. Числото 14,41% се оказа устойчиво при независими възпроизвеждания, а таксономията на отказите (фалшива неосъществимост, циклично поведение, колеблив отказ) беше потвърдена от множество последващи трудове.

Ограниченията обаче са реални. Първо, 812 задачи, извлечени от 241 шаблона, означават, че бенчмаркът е краен и може да бъде обхванат систематично; агент, който запаметява шаблоните, би могъл да се претренира (overfit) без да постигне обща способност. WebArena Verified (2024–2025) откри и поправи несъответстващи проверки при оценяването, което означава, че част от оригиналните 14,41% може да отразяват шум при оценката, а не чиста способност. Второ, четирите типа уебсайтове — електронен магазин, форум, хостинг на код, CMS — са правдоподобни, но не са представителна извадка на мрежата. Липсват корпоративни SaaS услуги, правителствени портали с много форми, банкови интерфейси. Трето, бенчмаркът напълно игнорира безопасността и доверието: агент, който успее да „изтрие тази публикация“, получава същия резултат, независимо дали изтрива правилната публикация или десет други. ST-WebAgentBench (2024) беше специално разработен, за да запълни тази празнина.

Констатацията за фалшивата неосъществимост е най-интересният и подценяван резултат. Тя предполага, че LLM са калибрирани да избягват действия при несигурност — разумно очакване за модели, обучени чрез обратна връзка от хора — но това консервативно калибриране е абсолютно погрешно за задачи на агенти, където липсата на действие сама по себе си е скъпоструваща грешка.

Защо това е важно за AI във финансите

Разликата между 14,41% и 78,24% директно калибрира това, което един Beancount браузърен агент може да постигне днес без специализирано инженерство. Ако GPT-4 не може надеждно да изпълнява рутинни уеб задачи — поръчка на продукт, създаване на тикет в GitLab, публикуване във форум — той със сигурност не може да бъде доверен да навигира в уеб интерфейса на Fava без надзор. Това не е призив за отчаяние; то мотивира разработването на целенасочено изградени интерфейси и структурирани пространства за действие, които SWE-agent демонстрира, че работят при редактиране на код. Правилният урок е, че суровата способност на LLM, измерена върху общи задачи, не е това, което има значение; важно е колко е проектирана средата, за да поддържа агента.

Проблемът с фалшивата неосъществимост има пряк аналог в счетоводството: агент, който връща „Не мога да определя дали тази трансакция е дубликат“ вместо да провери, се проваля по абсолютно същия консервативен, но грешен начин. Агентите за обратно записване се нуждаят от изрична стъпка за проверка на осъществимостта, която принуждава към ангажимент, вместо към въздържание, съчетана с предпазни мрежи за отмяна (rollback), така че неправилният ангажимент да бъде поправим.

Специфично за Beancount, частта от WebArena със CMS + административен портал (Magento admin) е най-близкият структурен аналог на уеб интерфейса на Fava: административен интерфейс с множество страници, сложни форми, вложена навигация и състояние, което се запазва между сесиите. Таванът от 14,41% за този клас задачи е това, което трябва да приема за предположение по подразбиране, докато не демонстрираме нещо по-добро.

Какво да прочетете след това

  • VisualWebArena (Koh et al., 2024, arXiv:2401.13649) — разширява WebArena за мултимодални агенти, използващи екранни снимки, което е важно за Fava, тъй като не цялото съответно състояние е в DOM.
  • OSWorld (Xie et al., NeurIPS 2024, arXiv:2404.07972) — бенчмарк за пълна десктоп среда; 12,24% за най-добрия мултимодален модел срещу 72,36% за човек, разширявайки пропастта в способностите до GUI автоматизация извън браузъра.
  • ST-WebAgentBench (arXiv:2410.06703) — директно адресира пропуските в безопасността на WebArena, измервайки дали уеб агентите спазват политиките и ограниченията, докато изпълняват задачи.