WorkArena++: La bretxa del 93% entre el rendiment humà i el dels agents d'IA en tasques empresarials composicionals
WorkArena++ (arXiv:2407.05291, NeurIPS 2024) amplia l'original banc de proves WorkArena a 682 tasques empresarials composicionals que requereixen encadenar múltiples fluxos de treball —exactament el treball de coneixement de múltiples passos que un agent d'automatització de Beancount hauria de gestionar. Ho estic llegint ara perquè el registre original de WorkArena (LOG-061) deixava oberta la qüestió de què passa quan es componen tasques atòmiques en fluxos de treball reals. La resposta, com aclareix aquest article, és que tots els LLM actuals cauen en picat.
L'article
Boisvert et al. de ServiceNow Research agafen els components de tasques atòmiques del WorkArena original —emplenament de formularis, filtratge de llistes, cerca en bases de coneixement, lectura de quadres de comandament— i els componen en fluxos de treball empresarials realistes de múltiples passos. El banc de proves s'executa completament dins d'una instància real de ServiceNow mitjançant l'entorn BrowserGym, proporcionant als agents observacions HTML i entrades opcionals de captures de pantalla.
La decisió estructural clau és una jerarquia de dificultat de tres nivells. El L1 és el WorkArena original: tasques atòmiques d'una sola acció com "filtrar aquesta llista per estat = Tancat". El L2 introdueix tasques composicionals amb instruccions explícites pas a pas —l'agent rep un procediment complet al xat però ha d'executar una cadena de subtasques a través de diferents mòduls de ServiceNow sense perdre el fil. El L3 és la versió difícil: l'agent rep només un objectiu implícit ("incorporar un nou empleat") i primer ha de recuperar el procediment pertinent de la base de coneixement de l'empresa abans de planificar i executar els passos. Així és exactament com operen els treballadors del coneixement reals.
Els autors també inclouen un mecanisme per generar automàticament traces d'observació-acció de referència a partir de solucions d'oracle, permetent l'ajust fi supervisat sense anotació manual.
Idees clau
- Els humans resolen el 93,9% de les tasques compostes; GPT-4o en resol el 2,1%. Això no és un error de comprensió del llenguatge —és un error de planificació i execució a gran escala.
- Cap model completa cap tasca L3. El requisit de recuperar un procediment, planificar els passos i executar-los sense guia explícita no ha estat resolt per cap dels models provats, inclòs el GPT-4o-v (la variant amb capacitat de visió).
- Només GPT-4o i GPT-4o-v tenen èxit en un subconjunt de tasques L2, principalment tasques de memorització. Els agents basats en Llama3 fallen majoritàriament tant en L2 com en L3.
- El realisme de les tasques L3 és l'opció de disseny clau: rebre un objectiu implícit com "incorporar un nou empleat" sense un procediment —i després haver-lo de buscar— és com els empleats reben realment les assignacions en entorns empresarials.
- Es proven cinc dimensions de capacitat: planificació sota restriccions, recuperació d'informació, raonament basat en dades, memòria seqüencial i reconeixement de tasques inviables.
- Modes de fallada documentats: al·lucinacions sobre elements de la interfície d'usuari, incapacitat per mantenir plans de múltiples passos en un context llarg i error en contrastar informació de documents separats.
Qu è se sosté i què no
El titular del 93,9% vs. 2,1% és impactant però mecànicament explicable. El L2 i el L3 requereixen que un model recordi què va fer fa tres passos, correlacioni la informació recuperada d'un document amb un formulari que està a punt d'emplenar, i sàpiga quan una subtasca depèn d'haver completat una anterior. Aquestes coses no són exòtiques —els humans les fan sense esforç— però els agents LLM actuals fallen en la coordinació.
El que trobo més valuós aquí és el disseny L2 versus L3. El L2 lliura un procediment a l'agent; el L3 no. La caiguda de rendiment entre ells aïlla exactament una capacitat: la substitució de la recuperació més planificació per al seguiment d'instruccions explícites. Aquesta és la part difícil del treball de coneixement autònom, i el banc de proves ho exposa clarament.
L'article no arriba a demostrar que el mecanisme de traça d'entrenament realment ajudi. Els autors proporcionen la infraestructura per generar dades d'ajust fi i afirmen que els models es poden entrenar amb elles —però no informen dels resultats de fer-ho. Sense aquest experiment, WorkArena++ és un banc de proves on tots els agents actuals fallen, sense un camí demostrat cap a la millora. Això limita la seva utilitat a curt termini com a objectiu d'entrenament.
La dependència de ServiceNow també en limita la generalització. ServiceNow té una interfície inusualment estructurada i ben documentada. Si els agents fallen aquí, fallaran encara més en els sistemes empresarials més desordenats que la majoria d'organitzacions utilitzen realment.
Per què això és important per a l'IA financera
La connexió amb l'automatització de Beancount és directa. Un agent comptable autònom fa un treball de tipus L3 per defecte: un usuari diu "concilia les despeses del mes passat", i l'agent ha de recuperar l'estructura de comptes pertinent del llibre major, planificar quins assentaments inspeccionar, contrastar-los amb les dades bancàries importades i executar les operacions d'escriptura —tot sense una guia pas a pas. WorkArena++ posa una xifra a com de malament gestionen els agents actuals aquest patró.
El mecanisme de traça d'entrenament també és aplicable immediatament. Les tasques de Beancount tenen solucions d'oracle deterministes —els assentaments del diari correctes són verificables— el que significa que es podrien generar traces de referència a escala per a l'ajust fi d'un agent especialitzat en el llibre major. Això és precisament el que WorkArena++ permet sense explotar-ho en el propi article. És un esquema de disseny més que un problema resolt.
La taxa d'èxit de zero en el L3 és el punt de calibratge més útil per a Bean Labs: fins i tot en un entorn empresarial controlat amb dades netes i una interfície ben estructurada, els agents d'última generació encara no poden gestionar tasques composicionals amb objectius implícits. Aquesta bretxa és on resideix la recerca interessant.
Què llegir a continuació
- TheAgentCompany (arXiv:2412.14161) — 175 tasques dins d'una empresa de programari simulada amb eines internes reals (GitLab, RocketChat); el millor agent completa aproximadament el 30%; un entorn empresarial més naturalista que ServiceNow.
- τ²-bench (arXiv:2506.07982) — amplia el τ-bench a entorns de control dual on tant l'agent com l'usuari poden modificar l'estat compartit simultàniament; directament rellevant per a les sessions de Beancount on els usuaris i els agents coediten un llibre major.
- CRMArena-Pro (arXiv:2505.18878) — avaluació holística d'agents LLM a través d'escenaris de negoci CRM utilitzant models més nous; prova si la bretxa de capacitat de WorkArena++ s'ha reduït.
