WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals
Després de llegir l'avaluació de τ-bench sobre agents de crida d'eines en els dominis del comerç detallista i les aerolínies, vaig voler endinsar-me en el programari empresarial, el territori on realment han d'operar els agents a l'estil de Beancount. WorkArena (Drouin et al., ServiceNow Research, 2024) avalua agents web d'LLM en 33 tasques reals dins de la plataforma empresarial ServiceNow, convertint-se en la prova existent més directa sobre si els models actuals poden automatitzar fluxos de treball genuïns de treballadors del coneixement en lloc d'escenaris de joguina sintètics.
L'article
"WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?" presenta un banc de proves de 33 tasques i 19.912 instàncies úniques extretes de la plataforma de programari empresarial ServiceNow. Les tasques cobreixen sis categories que els treballadors del coneixement realitzen realment cada dia: filtrar i ordenar llistes, omplir formularis, cercar en bases de coneixement, fer comandes en catàlegs de serveis, llegir taulers de control i navegar per menús. Juntament amb el banc de proves, els autors publiquen BrowserGym, un entorn d'avaluació que ofereix als agents observacions multimodals riques —HTML, arbres d'accessibilitat, captures de pantalla— a més d'un espai d'accions estandarditzat per a interaccions web.
La pregunta central que planteja l'article és si els LLM actuals poden gestionar els fluxos de treball estructurats, de múltiples passos i limitats per la interfície d'usuari que exigeix el programari empresarial real. No es tracta de tasques de cerca obertes ni de preguntes i respostes d'un sol torn; són seqüències dirigides a objectius de clics, entrades de formularis i operacions de filtratge que deixen rastres verificables en un sistema en viu. Aquesta propietat de verificació a partir de l'estat del sistema és el que fa que WorkArena sigui significativament diferent de la majoria dels bancs de proves d'agents, i és exactament la propietat que un agent d'escriptura de Beancount hauria de satisfer.
Idees clau
- El GPT-4o arriba al 42,7% global a WorkArena amb indicacions de cadena de pensament (chain-of-thought); el GPT-3.5-Turbo només assoleix el 6,1%, i el model de codi obert Llama3-70B-Instruct es queda en el 17,9%, una bretxa de 25 punts entre els models propietaris capdavanters i els de codi obert de nova generació.
- Les tasques de filtratge de llistes són una barrera total: 0% per a cada model. El giny de llista de ServiceNow utilitza HTML no estàndard amb el qual cap dels agents provats va poder interactuar de manera fiable. L'ordenació és gairebé igual de dolenta: el GPT-4o només assoleix el 10% en tasques d'ordenació de llistes.
- Les tasques del catàleg de serveis són sorprenentment abordables: el GPT-4o arriba al 77,8% en les nou tasques del catàleg de serveis, on la interfície d'usuari és més convencional i les accions requerides s'ajusten estretament als patrons d'ompliment de formularis que el model probablement ha vist durant l'entrenament.
- Les observacions multimodals amb prou feines ajuden. Afegir captures de pantalla a les observacions del GPT-4o va produir "millores de rendiment molt petites", cosa que suggereix que el coll d'ampolla és la comprensió de lstructure de la interfície d'usuari, no l'absència d'entrada visual.
- La cadena de pensament és fonamental. Eliminar-la redueix el rendiment del Llama3-70B en uns 10 punts a WorkArena, confirmant que les tasques web de múltiples passos requereixen un raonament intermedi explícit, no només la predicció d'accions.
- Els mecanismes de memòria van ser contraproduents. L'activació d'una etiqueta
use_think_historyva fer que els agents "s'aferressin a decisions preses en els primers passos, fins i tot a les errònies", un exemple concret de compromís rígid disfressat de planificació.
Què es manté ferm — i què no
La propietat més valuosa del banc de proves és que s'executa contra una instància real de ServiceNow: l'èxit es determina per si l'estat del sistema realment va canviar correctament, no per la coincidència de cadenes de text amb una sortida esperada. Això fa que el 0% en les tasques de filtratge de llistes sigui especialment demolidor: no hi ha on amagar-se. La varietat de tasques també és genuïnament representativa: les sis categories abasten l'amplitud del que els treballadors del coneixement dediquen el seu temps, sense ser tasques d'exhibició seleccionades amb cura.
El que trobo menys satisfactori és el tractament dels modes de fallada. L'article identifica que les estructures HTML exòtiques, els iFrames niats i els Shadow DOM bloquegen els agents, però no analitza sistemàticament quines característiques estructurals en són les responsables ni en quina proporció. El problema de la mida del DOM —arbres HTML que van de 40.000 a 500.000 tòquens— s'esmenta però no s'analitza profundament: no sabem si el resum, la fragmentació o les observacions només de l'arbre d'accessibilitat recuperarien el rendiment. L'arquitectura d'un sol agent tampoc es compara mai amb una configuració multi-agent descomposta (una divisió selector/executor, per exemple), per la qual cosa no està clar si el resultat del 0% en el filtratge de llistes és un problema d'interfície, un problema de planificació o tots dos.
També hi ha una qüestió de validesa de la plataforma que val la pena plantejar. ServiceNow és un conjunt de programari empresarial específic amb patrons d'interfície d'usuari idiosincràtics. Els resultats ens diuen molt sobre els agents de ServiceNow i una mica menys sobre els agents web empresarials en general. Generalitzar el fracàs del filtratge de llistes a, per exemple, una interfície de beanquery o una eina de full de càlcul requereix evidència independent.
Per què això és important per a la IA financera
Els resultats de WorkArena són un punt de calibratge al qual torno sovint per a l'agenda d'automatització de Beancount. El patró de fallada és instructiu: els agents ho fan bé en tasques que semblen formularis web (catàleg de serveis, 77,8%) i s'enfonsen en tasques que requereixen una interacció precisa amb ginys d'interfície d'usuari estructurats i no estàndard (filtratge de llistes, 0%). Un agent de Beancount que realitzés entrades al llibre major s'enfrontaria a un panorama mixt: la part de llenguatge natural a transacció s'assembla a les tasques d'ompliment de formularis on el rendiment és raonable; però les parts de consulta, filtratge i conciliació —trobar entrades específiques, ordenar per data, aplicar filtres de comptes— s'assemblen molt més a les tasques de llista on tot falla.
L'article també reforça una lliçó dels registres de CRITIC i Reflexion: la verificació externa importa més que el raonament intern. Les tasques de WorkArena tenen èxit o fallen segons l'estat del sistema, i aquesta veritat absoluta és el que fa que el banc de proves sigui honest. Per als agents d'escriptura de Beancount, això suggereix fortament un disseny on cada canvi de llibre major compromès es verifiqui contra l'API de Python de Beancount abans de ser acceptat, no només comprovat pel propi raonament de l'agent. El sostre del 42,7% del millor model a l'ICML 2024 suggereix que, fins i tot per a les tasques convencionals de la interfície d'usuari empresarial, la bretxa entre "ocasionalment útil" i "fiablement automatitzable" encara és gran.
Què llegir a continuació
- WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — el seguiment del mateix equip de ServiceNow amb 682 tasques compositives que requereixen planificació, raonament aritmètic i recuperació de múltiples documents; respon directament si l'escalat de la complexitat de les tasques exposa nous modes de fallada més enllà de la barrera de la interacció amb la interfície d'usuari.
- WebArena (arXiv:2307.13854, ICLR 2024) — el banc de proves complementari d'agents web d'ús general (812 tasques en comerç electrònic, fòrums, allotjament de codi, CMS) on el GPT-4 només assoleix el 14,41% enfront del 78% del rendiment humà; situa les xifres de WorkArena en el panorama més ampli dels agents web.
- OSWorld (arXiv:2404.07972, NeurIPS 2024) — amplia l'avaluació de l'automatització empresarial a entorns de sistemes operatius d'escriptori complets, incloses aplicacions reals (LibreOffice, VS Code, Chrome); la prova més completa de si els modes de fallada de WorkArena són específics de la interfície d'usuari o reflecteixen una bretxa de competència més profunda dels agents.
