WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях
WorkArena++ (arXiv:2407.05291, NeurIPS 2024) розширює оригінальний бенчмарк WorkArena до 682 композиційних корпоративних завдань, які вимагають поєднання кількох робочих процесів — саме такої багатоетапної інтелектуальної праці, з якою повинен справлятися агент для автоматизації Beancount. Я читаю його зараз, тому що оригінальний звіт WorkArena (LOG-061) залишив відкритим питання про те, що відбувається, коли ви об'єднуєте атомарні завдання в реальні робочі процеси. Відповідь, як чітко показує ця стаття, полягає в тому, що всі сучасні LLM зазнають краху.
Стаття
Буавер та ін. з ServiceNow Research беруть атомарні компоненти завдань з оригінальної WorkArena — заповнення форм, фільтрація списків, пошук у базі знань, читання дашбордів — і об'єднують їх у реалістичні багатокрокові корпоративні робочі процеси. Бенчмарк працює повністю всередині живого екземпляра ServiceNow через середовище BrowserGym, надаючи агентам HTML-спостереження та опціональні скріншоти.
Ключовим структурним рішенням є трирівнева ієрархія складності. L1 — це оригінальна WorkArena: атомарні завдання з однією дією, наприклад «відфільтрувати цей список за статусом = Closed». L2 вводить композиційні завдання з чіткими покроковими інструкціями — агент отримує повну процедуру в чаті, але повинен виконати ланцюжок підзавдань у різних модулях ServiceNow, не втрачаючи фокусу. L3 — найскладніша версія: агент отримує лише неявну ціль («оформити нового співробітника») і повинен спочатку знайти відповідну процедуру в базі знань компанії, перш ніж планувати та виконувати кроки. Саме так працюють реальні фахівці.
Автори також включили механізм для автоматичної генерації еталонних траєкторій спостережень-дій (ground-truth traces) на основі оракульних рішень, що дозволяє проводити тонке налаштування під наглядом (supervised fine-tuning) без ручної розмітки.
Ключові ідеї
- Люди вирішують 93,9% композиційних завдань; GPT-4o — 2,1%. Це не помилка розуміння мови — це провал планування та виконання у масштабі.
- Жодна модель не виконує жодного завдання L3. Вимога знайти процедуру, спланувати кроки та виконати їх без чітких вказівок залишається абсолютно невирішеною для всіх протестованих моделей, включаючи GPT-4o-v (варіант з підтримкою зору).
- Лише GPT-4o та GPT-4o-v справляються з підмножиною завдань L2, переважно з підзавданнями на запам'ятовування. Агенти на базі Llama3 здебільшого зазнають невдачі як на L2, так і на L3.
- Реалізм завдань L3 є ключовим вибором дизайну: отримання неявної цілі на кшталт «оформити нового співробітника» без процедури — з наступною необхідністю її пошуку — це те, як працівники насправді отримують завдання в корпоративному середовищі.
- Тестуються п'ять вимірів можливостей: планування в умовах обмежень, пошук інформації, міркування на основі даних, послідовна пам'ять та розпізнавання нездійсненних завдань.
- Задокументовані типи збоїв: галюцинації щодо елементів інтерфейсу, неможливість підтримувати багатокрокові плани в довгому контексті та невміння зіставляти інформацію з різних документів.
Що підтверджується, а що ні
Цифри 93,9% проти 2,1% вражають, але їх можна пояснити механістично. L2 та L3 вимагають від моделі пам'ятати, що вона зробила три кроки тому, співвідносити інформацію, отриману з одного документа, з формою, яку вона збирається заповнити, і розуміти, коли підкрок залежить від завершення попереднього. Це не щось екзотичне — люди роблять це без зусиль — але сучасні LLM-агенти ламаються на координації.
Найціннішим тут я вважаю порівняння L2 та L3. L2 дає агенту процедуру; L3 — ні. Розрив у продуктивності між ними виокремлює рівно одну здатність: заміну чіткого дотримання інструкцій на пошук плюс планування. Це найскладніша частина автономної інтелектуальної праці, і бенчмарк наочно це демонструє.
Чого стаття не робить, так це не показує, що механізм тренувальних траєкторій насправді допомагає. Автори надають інфраструктуру для створення даних для тонкого налаштування і стверджують, що моделі можна на них навчати, але не повідомляють про результати таких експериментів. Без цього експерименту WorkArena++ залишається бенчмарком, на якому всі сучасні агенти зазнають невдачі, без продемонстрованого шляху до вдосконалення. Це обмежує його короткострокову корисність як цілі для навчання.
Залежність від ServiceNow також обмежує можливість узагальнення. ServiceNow має незвично структурований, добре задокументований інтерфейс. Якщо агенти зазн ають невдачі тут, вони ще гірше справлятимуться з хаотичними корпоративними системами, які використовує більшість організацій.
Чому це важливо для фінансового ШІ
Зв'язок з автоматизацією Beancount прямий. Автономний бухгалтерський агент за замовчуванням виконує роботу в стилі L3: користувач каже «узгодити витрати за минулий місяць», і агент повинен знайти відповідну структуру рахунків у реєстрі, спланувати, які записи перевірити, зіставити їх з імпортованими банківськими даними та виконати операції зворотного запису — і все це без покрокового керівництва. WorkArena++ дає кількісну оцінку того, наскільки погано сучасні агенти справляються з цим патерном.
Механізм тренувальних траєкторій також можна застосувати негайно. Завдання Beancount мають детерміновані еталонні рішення — правильні записи в журналі можна перевірити, — а отже, траєкторії можна генерувати в масштабі для тонкого налаштування спеціалізованого агента для роботи з реєстрами. Саме це дозволяє WorkArena++, хоча сама стаття це і не використовує. Це скоріше креслення дизайну, ніж вирішена проблема.
Нульовий рівень успіху на L3 є найкориснішою точкою калібрування для Bean Labs: навіть у контрольованому корпоративному середовищі з чистими даними та добре структурованим інтерфейсом найсучасніші агенти поки що не можуть впоратися з композиційними завданнями з неявними цілями. Саме в цьому розриві і знаходяться найцікавіші дослідження.
Що читати далі
- TheAgentCompany (arXiv:2412.14161) — 175 завдань всередині симульованої програмної компанії зі справжніми внутрішніми інструментами (GitLab, RocketChat); найкращий агент виконує ~30%; більш природне корпоративне середовище, ніж ServiceNow.
- τ²-bench (arXiv:2506.07982) — розширює τ-bench до середовищ з подвійним керуванням, де і агент, і користувач можуть одночасно змінювати спільний стан; безпосередньо стосується сесій Beancount, де користувачі та агенти спільно редагують реєстр.
- CRMArena-Pro (arXiv:2505.18878) — цілісна оцінка LLM-агентів у бізнес-сценаріях CRM з використанням новіших моделей; перевіряє, чи скоротився розрив у можливостях, виявлений у WorkArena++.
