Перейти до основного вмісту

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Після ознайомлення з оцінкою τ-bench агентів для виклику інструментів у сферах роздрібної торгівлі та авіаперевезень, я захотів заглибитися в корпоративне програмне забезпечення — територію, де насправді мають працювати агенти в стилі Beancount. WorkArena (Drouin et al., ServiceNow Research, 2024) тестує вебагентів на базі LLM на 33 реальних завданнях усередині корпоративної платформи ServiceNow, що робить його найбільш прямим з існуючих тестів того, чи можуть сучасні моделі автоматизувати справжні робочі процеси інтелектуальних працівників, а не синтетичні іграшкові сценарії.

Стаття

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

«WorkArena: Наскільки здатні вебагенти вирішувати поширені завдання інтелектуальної праці?» представляє бенчмарк із 33 завдань і 19 912 унікальних екземплярів, взятих із платформи корпоративного ПЗ ServiceNow. Завдання охоплюють шість категорій, які інтелектуальні працівники виконують щодня: фільтрація та сортування списків, заповнення форм, пошук у базах знань, замовлення з каталогів послуг, читання інформаційних панелей та навігація по меню. Разом із бенчмарком автори випускають BrowserGym — середовище для оцінки, яке надає агентам багаті мультимодальні спостереження: HTML, дерева доступності, знімки екрана — плюс стандартизований простір дій для вебвзаємодій.

Ключове питання статті полягає в тому, чи можуть сучасні LLM справлятися зі структурованими, багатоетапними робочими процесами з обмеженнями інтерфейсу користувача (UI), яких вимагає реальне корпоративне ПЗ. Це не відкриті пошукові завдання або одноходові відповіді на запитання; це цілеспрямовані послідовності кліків, введення даних у форми та операцій фільтрації, які залишають перевіряємі сліди в активній системі. Ця властивість перевірки за станом системи — саме те, що робить WorkArena суттєво відмінною від більшості агентських бенчмарків, і це саме та властивість, якій мав би відповідати агент для зворотного запису в Beancount.

Ключові ідеї

  • GPT-4o досягає 42,7% загалом на WorkArena з використанням ланцюжка думок (chain-of-thought); GPT-3.5-Turbo справляється лише на 6,1%, а Llama3-70B-Instruct з відкритим вихідним кодом зупиняється на 17,9% — розрив у 25 пунктів між провідними пропрієтарними та провідними відкритими моделями.
  • Завдання з фільтрацією списків — це глуха стіна: 0% для кожної моделі. Віджет списку ServiceNow використовує нестандартний HTML, з яким жоден із протестованих агентів не зміг надійно взаємодіяти. Сортування майже таке ж погане: GPT-4o досягає лише 10% у завданнях із сортуванням списків.
  • Завдання з каталогом послуг виявилися несподівано піддатливими: GPT-4o досягає 77,8% у дев'яти завданнях із каталогом послуг, де UI є більш традиційним, а необхідні дії тісно перегукуються з паттернами заповнення форм, які модель, ймовірно, бачила під час навчання.
  • Мультимодальні спостереження майже не допомагають. Додавання знімків екрана до спостережень GPT-4o дало «дуже незначне покращення продуктивності», що свідчить про те, що вузьким місцем є розуміння структури UI, а не відсутність візуальних даних.
  • Ланцюжок думок (chain-of-thought) є критично важливим. Його видалення знижує результати Llama3-70B приблизно на 10 пунктів у WorkArena, підтверджуючи, що багатоетапні вебзавдання вимагають явного проміжного міркування, а не просто прогнозування дій.
  • Механізми пам'яті дали зворотний ефект. Активація прапорця use_think_history змушувала агентів «дотримуватися рішень, прийнятих на ранніх етапах, навіть помилкових» — конкретний приклад жорсткої прихильності, що маскується під планування.

Що витримує критику, а що ні

Найціннішою властивістю бенчмарка є те, що він працює проти живого екземпляра ServiceNow: успіх визначається тим, чи справді коректно змінився стан системи, а не порівнянням рядків з очікуваним результатом. Це робить 0% у завданнях із фільтрацією списків особливо нищівним — тут ніде сховатися. Різноманітність завдань також є справді репрезентативною: шість категорій охоплюють увесь спектр того, на що витрачають час інтелектуальні працівники, а не підібрані показові завдання.

Менш задовільним мені видається розгляд режимів відмови. Стаття вказує, що екзотичні структури HTML, вкладені iFrame та shadow DOM ламають агентів, але не проводить системного аналізу того, які саме структурні особливості відповідальні за це і в якій пропорції. Проблема розміру DOM — дерева HTML від 40 тис. до 500 тис. токенів — згадується, але не аналізується глибоко: ми не знаємо, чи змогли б підсумовування, розбиття на частини або спостереження лише за деревом доступності відновити продуктивність. Архітектура з одним агентом також ніколи не порівнюється з декомпонованою мультиагентною установкою (наприклад, поділ на селектор/виконавець), тому незрозуміло, чи є результат 0% у фільтрації списків проблемою інтерфейсу, планування чи обох факторів одночасно.

Також варто підняти питання валідності платформи. ServiceNow — це специфічний корпоративний стек ПЗ з ідіосинкратичними паттернами UI. Результати багато говорять нам про агентів для ServiceNow і дещо менше про корпоративних вебагентів загалом. Узагальнення невдачі з фільтрацією списків, скажімо, на інтерфейс beanquery або інструмент для роботи з електронними таблицями, потребує незалежних доказів.

Чому це важливо для ШІ у фінансах

Результати WorkArena — це точка калібрування, до якої я постійно повертаюся в контексті автоматизації Beancount. Паттерн відмов є повчальним: агенти добре справляються із завданнями, схожими на вебформи (каталог послуг, 77,8%), і зазнають краху в завданнях, що вимагають точної взаємодії зі структурованими, нестандартними віджетами UI (фільтрація списків, 0%). Агент Beancount, що виконує введення в реєстр, зіткнеться зі змішаною картиною: частина перетворення природної мови в транзакцію нагадує завдання із заповненням форм, де продуктивність є прийнятною; але частини із запитами, фільтрацією та звіркою — пошук конкретних записів, сортування за датою, застосування фільтрів рахунків — набагато більше схожі на завдання зі списками, де все ламається.

Стаття також підкріплює урок із логів CRITIC та Reflexion: зовнішня перевірка важливіша за внутрішні міркування. Завдання WorkArena завершуються успіхом або невдачею залежно від стану системи, і ця чиста істина робить бенчмарк чесним. Для агентів зворотного запису Beancount це є вагомим аргументом на користь дизайну, де кожна внесена зміна в реєстр перевіряється за допомогою Python API Beancount перед прийняттям, а не просто перевіряється власними міркуваннями агента. Стеля у 42,7% для найкращої моделі на ICML 2024 свідчить про те, що навіть для звичайних завдань корпоративного UI розрив між «іноді корисним» і «надійно автоматизованим» усе ще залишається величезним.

Що читати далі

  • WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — продовження від тієї ж команди ServiceNow із 682 композиційними завданнями, що вимагають планування, арифметичних міркувань та пошуку в декількох документах; прямо відповідає на питання, чи виявляє масштабування складності завдань нові режими відмови за межами бар'єру взаємодії з UI.
  • WebArena (arXiv:2307.13854, ICLR 2024) — супутній бенчмарк для вебагентів загального призначення (812 завдань у сферах електронної комерції, форумів, хостингу коду, CMS), де GPT-4 досягає лише 14,41% порівняно з 78% у людей; поміщає цифри WorkArena у ширший ландшафт вебагентів.
  • OSWorld (arXiv:2404.07972, NeurIPS 2024) — розширює оцінку автоматизації підприємств на повноцінні середовища настільних комп'ютерів, включаючи реальні додатки (LibreOffice, VS Code, Chrome); найповніший тест того, чи є режими відмови WorkArena специфічними для UI, чи відображають глибший розрив у компетенції агентів.