Преминете към основното съдържание

WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

След като прочетох оценката на τ-bench за агенти с извикване на инструменти в областите на търговията на дребно и авиолиниите, исках да навляза в корпоративния софтуер — територията, където агентите тип Beancount всъщност трябва да оперират. WorkArena (Drouin et al., ServiceNow Research, 2024) тества LLM уеб агенти върху 33 реални задачи в рамките на корпоративната платформа ServiceNow, което го прави най-директния съществуващ тест за това дали настоящите модели могат да автоматизират истински работни процеси на интелектуални работници, а не синтетични примерни сценарии.

Документът

2026-06-13-workarena-web-agents-enterprise-knowledge-work-tasks

"WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?" представя бенчмарк от 33 задачи и 19 912 уникални случая, извлечени от платформата за корпоративен софтуер ServiceNow. Задачите обхващат шест категории, които интелектуалните работници действително изпълняват ежедневно: филтриране и сортиране на списъци, попълване на формуляри, търсене в бази знания, поръчване от каталози с услуги, четене на дашбордове и навигация в менюта. Наред с бенчмарка, авторите пускат BrowserGym — среда за оценка, която предоставя на агентите богати мултимодални наблюдения — HTML, дървета на достъпността (accessibility trees), екранни снимки — плюс стандартизирано пространство за действия за уеб взаимодействия.

Основният въпрос, който документът поставя, е дали настоящите LLM могат да се справят със структурираните, многоетапни и ограничени от потребителския интерфейс работни процеси, които изисква реалният корпоративен софтуер. Това не са задачи за търсене с отворен край или QA в една стъпка; това са целенасочени последователности от кликвания, въвеждане във формуляри и операции по филтриране, които оставят проверими следи в жива система. Това свойство за проверка чрез състоянието на системата е това, което прави WorkArena съществено различен от повечето бенчмаркове за агенти, и е точно свойството, което един Beancount агент за запис би трябвало да удовлетворява.

Ключови идеи

  • GPT-4o постига 42,7% общо в WorkArena с подкана тип "верига от мисли" (chain-of-thought); GPT-3.5-Turbo постига едва 6,1%, а моделът с отворен код Llama3-70B-Instruct спира на 17,9% — разлика от 25 пункта между водещите платени и водещите модели с отворен код.
  • Задачите за филтриране на списъци са пълна стена: 0% за всеки модел. Списъчният уиджет на ServiceNow използва нестандартен HTML, с който нито един от тестваните агенти не успя да взаимодейства надеждно. Сортирането е почти толкова зле: GPT-4o постига само 10% при задачите за сортиране на списъци.
  • Задачите в каталога с услуги са изненадващо лесно изпълними: GPT-4o достига 77,8% при деветте задачи от каталога с услуги, където потребителският интерфейс е по-конвенционален и необходимите действия съответстват тясно на моделите за попълване на формуляри, които моделът вероятно е виждал по време на обучението си.
  • Мултимодалните наблюдения почти не помагат. Добавянето на екранни снимки към наблюденията на GPT-4o доведе до „много малки подобрения в производителността“, което предполага, че тясното място е разбирането на структурата на интерфейса, а не липсата на визуална информация.
  • Веригата от мисли (chain-of-thought) е критично важна. Премахването ѝ сваля резултата на Llama3-70B с около 10 пункта в WorkArena, потвърждавайки, че многоетапните уеб задачи изискват изрично междинно разсъждение, а не само предвиждане на действията.
  • Механизмите за памет дадоха обратен ефект. Активирането на флага use_think_history накара агентите да „се придържат към решения, взети в ранните етапи, дори и към погрешни такива“ — конкретен пример за сковано придържане към план, маскирано като планиране.

Какво е устойчиво и какво не

Най-ценното свойство на бенчмарка е, че той работи срещу жива инстанция на ServiceNow: успехът се определя от това дали състоянието на системата действително се е променило правилно, а не чрез съпоставяне на низове с очакван изход. Това прави резултата от 0% при задачите за филтриране на списъци особено показателен — няма къде да се скриеш. Разнообразието от задачи също е наистина представително: шестте категории обхващат целия спектър от дейности, на които интелектуалните работници отделят време, а не са подбрани „удобни“ задачи.

Това, което намирам за по-малко задоволително, е разглеждането на режимите на отказ. Документът идентифицира, че екзотичните HTML структури, вложените iFrames и shadow DOM елементите пречат на агентите, но не анализира систематично кои структурни характеристики са отговорни или в каква пропорция. Проблемът с размера на DOM — HTML дървета, вариращи от 40 хиляди до 500 хиляди токена — е споменат, но не е анализиран задълбочено: не знаем дали обобщаването, разделянето на части (chunking) или наблюденията само върху дървото на достъпността биха възстановили производителността. Архитектурата с един агент също не е сравнена с декомпозирана конфигурация с множество агенти (например разделяне на селектор/изпълнител), така че не е ясно дали резултатът от 0% при филтрирането на списъци е проблем на интерфейса, проблем на планирането или и двете.

Съществува и въпросът за валидността на платформата. ServiceNow е специфичен корпоративен софтуерен стек с идиосинкратични интерфейсни модели. Резултатите ни казват много за агентите в ServiceNow и малко по-малко за корпоративните уеб агенти като цяло. Обобщаването на неуспеха при филтрирането на списъци към, да речем, beanquery интерфейс или инструмент за електронни таблици изисква независими доказателства.

Защо това е важно за финансовия ИИ

Резултатите от WorkArena са отправна точка, към която се връщам често в контекста на автоматизацията на Beancount. Моделът на неуспех е поучителен: агентите се справят добре със задачи, които изглеждат като уеб формуляри (каталог с услуги, 77,8%), и се провалят при задачи, които изискват прецизно взаимодействие със структурирани, нестандартни интерфейсни уиджети (филтриране на списъци, 0%). Един Beancount агент, извършващ вписвания в леджъра, би се изправил пред смесена картина: частта с превръщането на естествен език в трансакция прилича на задачите за попълване на формуляри, където производителността е приемлива; но частите със заявки, филтриране и равнение (reconciliation) — намиране на специфични записи, сортиране по дата, прилагане на филтри за сметки — изглеждат много повече като задачите със списъци, където всичко се разпада.

Документът също така затвърждава урока от дневниците на CRITIC и Reflexion: външната проверка е по-важна от вътрешното разсъждение. Задачите в WorkArena успяват или се провалят въз основа на състоянието на системата и тази чиста обективна истина е това, което прави бенчмарка честен. За Beancount агентите за запис това е силен аргумент в полза на дизайн, при който всяка потвърдена промяна в леджъра се проверява чрез Python API на Beancount, преди да бъде приета, а не просто да се разчита на собствените разсъждения на агента. Таванът от 42,7% за най-добрия модел към ICML 2024 подсказва, че дори за конвенционални корпоративни интерфейсни задачи, разликата между „понякога полезен“ и „надеждно автоматизируем“ все още е голяма.

Какво да прочетете след това

  • WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — продължението от същия екип на ServiceNow с 682 композиционни задачи, изискващи планиране, аритметични разсъждения и извличане на информация от множество документи; директно отговаря на въпроса дали увеличаването на сложността на задачите разкрива нови режими на отказ извън бариерата на интерфейсното взаимодействие.
  • WebArena (arXiv:2307.13854, ICLR 2024) — придружаващият бенчмарк за уеб агенти с общо предназначение (812 задачи в електронна търговия, форуми, хостинг на код, CMS), където GPT-4 постига само 14,41% срещу 78% човешка производителност; поставя числата от WorkArena в по-широкия контекст на уеб агентите.
  • OSWorld (arXiv:2404.07972, NeurIPS 2024) — разширява оценката на корпоративната автоматизация до пълни десктоп среди, включително реални приложения (LibreOffice, VS Code, Chrome); най-изчерпателният тест за това дали режимите на отказ в WorkArena са специфични за потребителския интерфейс или отразяват по-дълбок дефицит в компетентността на агентите.