Преминете към основното съдържание

WorkArena++: Разликата от 93% между представянето на хората и ИИ агентите при сложни корпоративни задачи

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) разширява оригиналния бенчмарк WorkArena до 682 сложни корпоративни задачи, които изискват свързване на множество работни процеси — точно онзи многостепенен умствен труд, с който би трябвало да се справя един агент за Beancount автоматизация. Чета го сега, защото оригиналният дневник на WorkArena (LOG-061) остави отворен въпроса какво се случва, когато комбинирате атомарни задачи в реални работни процеси. Отговорът, както става ясно от този документ, е, че всеки настоящ LLM се проваля драстично.

Документът

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert et al. в ServiceNow Research вземат атомарните компоненти на задачите от оригиналната WorkArena — попълване на формуляри, филтриране на списъци, търсене в база знания, четене на табла за управление — и ги комбинират в реалистични многостепенни корпоративни работни процеси. Бенчмаркът работи изцяло в реална ServiceNow инстанция чрез средата BrowserGym, предоставяйки на агентите HTML наблюдения и опционални екранни снимки като входни данни.

Ключовото структурно решение е йерархия на трудност от три нива. L1 е оригиналната WorkArena: атомарни задачи с едно действие като „филтрирай този списък по статус = Затворен“. L2 въвежда сложни задачи с изрични инструкции стъпка по стъпка — агентът получава пълната процедура в чата, но трябва да изпълни верига от подзадачи в различни ServiceNow модули, без да губи нишката. L3 е трудната версия: агентът получава само косвена цел („назначи нов служител“) и трябва първо да извлече съответната процедура от базата знания на компанията, преди да планира и изпълни стъпките. Точно така работят реалните служители.

Авторите включват и механизъм за автоматично генериране на еталонни следи от действия (ground-truth traces) от оракулски решения, което позволява фина настройка под надзор (supervised fine-tuning) без ръчно анотиране.

Ключови идеи

  • Хората решават 93,9% от сложните задачи; GPT-4o решава 2,1%. Това не е провал в разбирането на езика, а провал в планирането и изпълнението в мащаб.
  • Никой модел не завършва нито една L3 задача. Изискването за извличане на процедура, планиране на стъпки и изпълнение без изрични насоки е напълно непосилно за всички тествани модели, включително GPT-4o-v (вариантът с визуални възможности).
  • Само GPT-4o и GPT-4o-v успяват при подмножество от L2 задачи, главно подзадачи за запаметяване. Агентите, базирани на Llama3, масово се провалят както при L2, так и при L3.
  • Реализмът на L3 задачите е ключовият избор в дизайна: получаването на косвена цел като „назначи нов служител“ без процедура — и последващата необходимост тя да бъде открита — е начинът, по който служителите всъщност получават задачи в корпоративна среда.
  • Тестват се пет измерения на способностите: планиране под ограничения, извличане на информация, вземане на решения въз основа на данни, последователна памет и разпознаване на неосъществими задачи.
  • Документирани режими на отказ: халюцинации за елементи на потребителския интерфейс, невъзможност за поддържане на многостепенни планове в дълъг контекст и неуспех при съпоставяне на информация от отделни документи.

Какво издържа проверката на времето и какво не

Заглавието за 93,9% срещу 2,1% е поразително, но механистично обяснимо. L2 и L3 изискват от модела да помни какво е направил преди три стъпки, да свърже информация, извлечена от един документ, с формуляр, който предстои да попълни, и да знае кога дадена подстъпка зависи от завършването на предходна. Това не е нещо екзотично — хората го правят без усилие — но настоящите ИИ агенти се пречупват при координацията.

Това, което намирам за най-ценно тук, е дизайнът L2 срещу L3. L2 предоставя процедура на агента; L3 не го прави. Рязкото спадане на производителността между тях изолира точно една способност: замяната на „извличане плюс планиране“ с „изрично следване на инструкции“. Това е трудната част от автономния умствен труд и бенчмаркът ясно я разкрива.

Това, което документът не прави, е да покаже, че механизмът за следи от обучението действително помага. Авторите предоставят инфраструктурата за генериране на данни за фина настройка и заявяват, че моделите могат да бъдат обучавани върху тях — но не съобщават резултати от това. Без този експеримент WorkArena++ е бенчмарк, на който всички настоящи агенти се провалят, без демонстриран път към подобрение. Това ограничава неговата краткосрочна полезност като цел за обучение.

Зависимостта от ServiceNow също ограничава възможността за обобщаване. ServiceNow има необичайно структуриран и добре документиран интерфейс. Ако агентите се провалят тук, те ще се провалят още по-тежко в по-разхвърляните корпоративни системи, които повечето организации всъщност използват.

Защо това е важно за финансите и ИИ

Връзката с Beancount автоматизацията е директна. Един автономен счетоводен агент по подразбиране върши работа от тип L3: потребителят казва „равнявай разходите от миналия месец“, а агентът трябва да извлече съответната структура на сметките от счетоводната книга, да планира кои записи да инспектира, да направи съпоставка с импортираните банкови данни и да изпълни операции по записване — всичко това без ръководство стъпка по стъпка. WorkArena++ дава цифрово изражение на това колко зле настоящите агенти се справят с този модел.

Механизмът за следи от обучение също е веднага приложим. Задачите в Beancount имат детерминирани оракулски решения — правилните счетоводни записи са проверими — което означава, че еталонни следи могат да бъдат генерирани в мащаб за фина настройка на специализиран агент за счетоводни книги. Точно това позволява WorkArena++, без да го експлоатира в самия документ. Това е по-скоро проектен план, отколкото решен проблем.

Нулевият процент на успех при L3 е най-полезният ориентир за Bean Labs: дори в контролирана корпоративна среда с чисти данни и добре структуриран интерфейс, най-модерните агенти все още не могат да се справят със сложни задачи с косвени цели. Тази празнина е мястото, където се крият интересните изследвания.

Какво да прочетете след това

  • TheAgentCompany (arXiv:2412.14161) — 175 задачи в симулирана софтуерна компания с реални вътрешни инструменти (GitLab, RocketChat); най-добрият агент завършва ~30%; по-естествена корпоративна среда от ServiceNow.
  • τ²-bench (arXiv:2506.07982) — разширява τ-bench до среди с двоен контрол, където и агентът, и потребителят могат да променят споделеното състояние едновременно; директно приложимо към Beancount сесии, където потребители и агенти съвместно редактират счетоводна книга.
  • CRMArena-Pro (arXiv:2505.18878) — цялостна оценка на LLM агенти в CRM бизнес сценарии, използваща по-нови модели; тества дали празнината в способностите от WorkArena++ се е свила.