Перейти к контенту

WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) расширяет оригинальный бенчмарк WorkArena до 682 композиционных корпоративных задач, требующих объединения нескольких рабочих процессов — именно той многоступенчатой интеллектуальной работы, с которой пришлось бы справляться агенту автоматизации Beancount. Я читаю его сейчас, потому что в оригинальном журнале WorkArena (LOG-061) остался открытым вопрос о том, что происходит при объединении атомарных задач в реальные рабочие процессы. Ответ, как ясно показывает эта статья, заключается в том, что все современные LLM терпят крах.

Статья

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Буавер и др. из ServiceNow Research берут компоненты атомарных задач из оригинальной WorkArena — заполнение форм, фильтрация списков, поиск в базе знаний, чтение дашбордов — и объединяют их в реалистичные многоэтапные корпоративные рабочие процессы. Бенчмарк полностью запускается внутри живого экземпляра ServiceNow через среду BrowserGym, предоставляя агентам HTML-наблюдения и дополнительные входные данные в виде скриншотов.

Ключевым структурным решением является трехуровневая иерархия сложности. L1 — это оригинальная WorkArena: атомарные задачи с одним действием, такие как «отфильтровать этот список по статусу = Closed». L2 вводит композиционные задачи с явными пошаговыми инструкциями — агент получает полную процедуру в чате, но должен выполнить цепочку подзадач в различных модулях ServiceNow, не теряя контроля. L3 — сложная версия: агент получает только неявную цель («принять на работу нового сотрудника») и должен сначала извлечь соответствующую процедуру из базы знаний компании перед планированием и выполнением этапов. Именно так работают реальные интеллектуальные сотрудники.

Авторы также включают механизм автоматической генерации эталонных цепочек «наблюдение-действие» из решений оракула, что позволяет проводить контролируемое тонкое обучение без ручной разметки.

Ключевые идеи

  • Люди решают 93,9% композитных задач; GPT-4o решает 2,1%. Это не провал понимания языка — это провал планирования и выполнения в масштабе.
  • Ни одна модель не завершает ни одну задачу L3. Требование извлечь процедуру, спланировать шаги и выполнить их без явного руководства остается полностью нерешенным для всех протестированных моделей, включая GPT-4o-v (вариант с поддержкой зрения).
  • Только GPT-4o и GPT-4o-v справляются с подмножеством задач L2, в основном с подзадачами на запоминание. Агенты на базе Llama3 в основном терпят неудачу как на L2, так и на L3.
  • Реализм задач L3 — ключевой выбор дизайна: получение неявной цели типа «принять на работу нового сотрудника» без процедуры — и последующая необходимость её поиска — это то, как сотрудники на самом деле получают задания в корпоративной среде.
  • Протестировано пять измерений способностей: планирование в условиях ограничений, поиск информации, рассуждение на основе данных, последовательная память и распознавание невыполнимых задач.
  • Документированные типы сбоев: галлюцинации относительно элементов интерфейса, неспособность поддерживать многоэтапные планы в длинном контексте и неумение сопоставлять информацию из разных документов.

Что подтверждается, а что нет

Заголовок о 93,9% против 2,1% поразителен, но механически объясним. Уровни L2 и L3 требуют от модели помнить, что она сделала три шага назад, соотносить информацию из одного документа с формой, которую она собирается заполнить, и знать, когда подзадача зависит от завершения предыдущей. В этом нет ничего экзотического — люди делают это без усилий — но современные LLM-агенты ломаются на координации.

Самым ценным здесь я считаю дизайн L2 против L3. L2 передает агенту процедуру; L3 — нет. Провал в производительности между ними изолирует ровно одну способность: замену явного следования инструкциям на поиск и планирование. Это самая сложная часть автономной интеллектуальной работы, и бенчмарк наглядно это демонстрирует.

Чего в статье нет, так это доказательств того, что механизм тренировочных цепочек действительно помогает. Авторы предоставляют инфраструктуру для генерации данных для тонкой настройки и утверждают, что модели могут быть обучены на них, но не сообщают о результатах такого обучения. Без этого эксперимента WorkArena++ остается бенчмарком, на котором все текущие агенты терпят неудачу, без продемонстрированного пути к улучшению. Это ограничивает его краткосрочную полезность в качестве цели обучения.

Зависимость от ServiceNow также ограничивает обобщаемость. У ServiceNow необычно структурированный, хорошо документированный интерфейс. Если агенты терпят неудачу здесь, они потерпят еще больший крах в более хаотичных корпоративных системах, которые использует большинство организаций.

Почему это важно для финансового ИИ

Связь с автоматизацией Beancount прямая. Автономный бухгалтерский агент по умолчанию выполняет работу в стиле L3: пользователь говорит «согласуй расходы за прошлый месяц», и агент должен извлечь соответствующую структуру счетов из реестра, спланировать, какие записи проверить, сопоставить их с импортированными банковскими данными и выполнить операции обратной записи — и все это без пошагового руководства. WorkArena++ дает количественную оценку того, насколько плохо современные агенты справляются с такой моделью работы.

Механизм тренировочных цепочек также применим немедленно. Задачи Beancount имеют детерминированные решения оракула — правильность проводок в журнале можно проверить — что означает, что эталонные цепочки можно генерировать в масштабе для тонкой настройки специализированного реестрового агента. Именно это позволяет WorkArena++, не используя это в самой статье. Это скорее проектный план, чем решенная проблема.

Нулевой показатель успеха на уровне L3 — самая полезная точка калибровки для Bean Labs: даже в контролируемой корпоративной среде с чистыми данными и хорошо структурированным интерфейсом современные агенты пока не могут справляться с композиционными задачами с неявными целями. В этом разрыве и кроются интересные исследования.

Что почитать дальше

  • TheAgentCompany (arXiv:2412.14161) — 175 задач внутри симулированной софтверной компании с реальными внутренними инструментами (GitLab, RocketChat); лучший агент выполняет ~30%; более естественная корпоративная среда, чем ServiceNow.
  • τ²-bench (arXiv:2506.07982) — расширяет τ-bench на среды с двойным управлением, где и агент, и пользователь могут одновременно изменять общее состояние; напрямую применимо к сессиям Beancount, где пользователи и агенты совместно редактируют реестр.
  • CRMArena-Pro (arXiv:2505.18878) — целостная оценка LLM-агентов в бизнес-сценариях CRM с использованием новых моделей; проверяет, сократился ли разрыв в способностях, выявленный в WorkArena++.