WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів
Бенчмарк WebArena із 812 завдань є прямим попередником WorkArena, про яку я писав учора. Читання їх поспіль прояснює ключову відмінність: WorkArena вимірює інтелектуальну роботу на рівні підприємства на одній платформі (ServiceNow), тоді як WebArena встановлює загальний базовий рівень можливостей веб-агентів у реалістичному відкритому програмному забезпеченні. Я хочу точно зрозуміти цей базовий рівень, перш ніж думати про агентів Beancount, які згодом працюватимуть у браузерних середовищах.
Стаття
Zhou та ін. (ICLR 2024, arXiv:2307.13854) представляють WebArena — відтворюваний бенчмарк із 812 завдань на чотирьох вебсайтах із власним хостингом: електронний магазин Magento, соціальний форум Postmill, екземпляр GitLab та адмінпанель CMS Magento, доповнені дзеркалом OpenStreetMap та офлайн-копією Wikipedia. На відміну від синтетичних іграшкових завдань MiniWoB++, кожен сайт WebArena використовує справжнє програмне забезпечення з відкритим вихідним кодом автентичного масштабу: приблизно 90 000 товарів, 95 сабредітів із понад 127 000 дописів і 300 Git-репозиторіїв на 1 000 облікових записів розробників. Завдання охоплюють три категорії — пошук інформації, навігація сайтом і зміна контенту/конфігурації — і оцінюються на основі функціональної коректності: чи з’явився запланований результат у базі даних або чи відповідає він точній/неточній (fuzzy) відповіді, а не те, чи дотримувався агент очікуваної послідовності дій.
Ключові ідеї
- GPT-4 досягає 14,41%; люди досягають 78,24%. Розрив становить 63,8 відсоткового пункта. GPT-3.5 набирає 8,75%, а базова модель Google Text-Bison-001 — лише 5,05%. Промптинг ланцюжка думок (Chain-of-thought) додає приблизно 2,3 пункта для GPT-4 — це корисно, але не є вирішальним фактором.
- Найпоширенішою помилкою є хибна нездійсненність. GPT-4 неправильно класифікував приблизно 54,9% здійсненних завдань (428 із 812) як нездійсненні, повертаючи [N/A] замість спроби їх виконати. Це домінуючий тип відмов, а не зашумлені послідовності дій чи помилки інструментів.
- Функціональна коректність, а не відтворення траєкторії. Оцінювання перевіряє чотири типи доказів: точний збіг, перевірка обов'язкових ключових слів, неточний збіг на основі LLM та програмна валідація через запити до бази даних або JavaScript. Це робить метрику стійкою до парафразів, але все ще вразливою до неоднозначних специфікацій завдань.
- Контейнеризований власний хостинг забезпечує відтворюваність. Усі чотири сайти постачаються як Docker-контейнери, що і відтворюють пізніші бенчмарки (WorkArena, OSWorld). Ви можете скинути стан і гарантувати ідентичні початкові умови, що неможливо при роботі з «живим» вебом.
- Шаблони завдань дозволяють уникнути сліпого запам'ятовування. 241 шаблон дає 812 конкретних завдань (по 3,3 варіанта на кожен), що дещо допомагає, але не заважає цілеспрямованій моделі вивчати шаблони замість принципів веб-навігації.
- Складність реального DOM на порядок вища, ніж у MiniWoB++. Типова сторінка WebArena серіалізується у тисячі токенів; споріднені роботи повідомляють про дерева DOM, що перевищують 100 000 токенів для складних портальних інтерфейсів.
Що пройшло перевірку часом, а що — ні
Основна методологія є ґрунтовною: реальне програмне забезпечення, оцінюван ня на основі результатів і відтворювані середовища — це саме те, що потрібно. Показник 14,41% виявився стабільним у незалежних відтвореннях, а таксономія помилок (хибна нездійсненність, циклічна поведінка, боязка відмова) була підтверджена кількома наступними статтями.
Проте обмеження також реальні. По-перше, 812 завдань, отриманих із 241 шаблону, означають, що бенчмарк є скінченним і його можна систематично охопити; агент, який запам'ятовує шаблони, може перенавчитися без узагальнення. WebArena Verified (2024–2025) виявила та виправила некоректні перевірки оцінювання, а це означає, що частина оригінальної цифри 14,41% може відображати шум оцінювання, а не чисті можливості. По-друге, чотири типи вебсайтів — електронна комерція, форум, хостинг коду, CMS — є правдоподібними, але не є репрезентативною вибіркою інтернету. Тут немає корпоративних SaaS, перевантажених формами державних порталів, банківських інтерфейсів. По-третє, бенчмарк повністю ігнорує безпеку та надійність: агент, який успішно видаляє пост, отримує той самий бал незалежно від того, чи видалив він потрібний пост чи ще десять інших. ST-WebAgentBench (2024) був спеціально розроблений, щоб усунути цю прогалину.
Висновок про хибну нездійсненність є найцікавішим і недооціненим результатом. Він свідчить про те, що LLM відкалібровані уникати дій у разі невизначеності — це розумне апріорне припущення для моделей, навчених на людському фідбеку, — але таке консервативне калібрування є абсолютно хибним для агентських завдань, де сама бездіяльність є дорогою помилкою.
Чому це важливо для фінансового ШІ
Розрив між 14,41% і 78,24% прямо вказує на те, чого може досягти браузерний агент Beancount сьогодні без спеціалізованої розробки. Якщо GPT-4 не може надійно виконувати рутинні веб-завдання — замовлення товару, створення тікета в GitLab, публікацію на форумі — йому точно не можна довірити навігацію у веб-інтерфейсі Fava без нагляду. Це не привід для розпачу; це мотивує до створення спеціалізованих інтерфейсів і структурованих просторів дій, які, як показав SWE-agent, працюють для редагування коду. Правильний урок полягає в тому, що сирі можливості LLM, виміряні на загальних завданнях, не мають вирішального значення; важливо те, наскільки середовище спроєктоване для підтримки агента.
Проблема хибної нездійсненності має прямий аналог у бухгалтерському обліку: агент, який повертає «Я не можу визначити, чи є ця транзакція дублікатом» замість перевірки, помиляється саме у цей консервативний, але неправильний спосіб. Агенти із правом запису потребують явного кроку перевірки здійсненності, який змушує прийняти рішення, а не утримуватися від нього, у поєднанні з механізмами безпечного відкату (rollback), щоб помилкове рішення можна було скасувати.
Саме для Beancount частина WebArena з CMS та адмінпанеллю (адмінка Magento) є найближчим структурним аналогом веб-інтерфейсу Fava: багатосторінковий інтерфейс адміністратора зі складними формами, вкладеною навігацією та станом, що зберігається між сесіями. Стеля у 14,41% для цього класу завдань — це те, що я повинен сприймати як припущення за замовчуванням, поки ми не продемонструємо кращий результат.
Що почитати далі
- VisualWebArena (Koh та ін., 2024, arXiv:2401.13649) — розширює WebArena на мультимодальних агентів, що використовують скріншоти, що важливо для Fava, оскільки не весь релевантний стан є в DOM.
- OSWorld (Xie та ін., NeurIPS 2024, arXiv:2404.07972) — бенчмарк повного середовища робочого столу; 12,24% для найкращої мультимодальної моделі проти 72,36% у людей, що розширює розрив у можливостях до автоматизації GUI за межами браузера.
- ST-WebAgentBench (arXiv:2410.06703) — безпосередньо розглядає прогалину в безпеці у WebArena, вимірюючи, чи дотримуються веб-агенти політик обмежень під час виконання завдань.
