WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real
Después de leer la evaluación de τ-bench sobre agentes de llamada a herramientas en los dominios de comercio minorista y aerolíneas, quise adentrarme en el software empresarial, el territorio donde realmente deben operar los agentes al estilo de Beancount. WorkArena (Drouin et al., ServiceNow Research, 2024) evalúa agentes web de LLM en 33 tareas reales dentro de la plataforma empresarial ServiceNow, lo que la convierte en la prueba existente más directa de si los modelos actuales pueden automatizar flujos de trabajo genuinos de trabajadores del conocimiento en lugar de escenarios de juguete sintéticos.
El artículo
"WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?" introduce un benchmark de 33 tareas y 19.912 instancias únicas extraídas de la plataforma de software empresarial ServiceNow. Las tareas cubren seis categorías que los trabajadores del conocimiento realizan diariamente: filtrar y ordenar listas, completar formularios, buscar en bases de conocimiento, realizar pedidos en catálogos de servicios, leer tableros de control y navegar por menús. Junto con el benchmark, los autores presentan BrowserGym, un marco de evaluación que proporciona a los agentes ricas observaciones multimodales —HTML, árboles de accesibilidad, capturas de pantalla— además de un espacio de acción estandarizado para interacciones web.
La pregunta central que plantea el artículo es si los LLM actuales pueden manejar los flujos de trabajo estructurados, de múltiples pasos y limitados por la interfaz de usuario que exige el software empresarial real. No se trata de tareas de búsqueda abiertas o de preguntas y respuestas de un solo turno; son secuencias dirigidas a objetivos compuestas por clics, entradas en formularios y operaciones de filtrado que dejan rastros verificables en un sistema en vivo. Esa propiedad de verificación basada en el estado del sistema es lo que hace que WorkArena sea significativamente diferente de la mayoría de los benchmarks de agentes, y es exactamente la propiedad que un agente de escritura (write-back) de Beancount necesitaría satisfacer.
Ideas clave
- GPT-4o alcanza un 42,7% global en WorkArena con prompts de cadena de pensamiento (chain-of-thought); GPT-3.5-Turbo logra solo un 6,1%, y el modelo de código abierto Llama3-70B-Instruct se queda en un 17,9%, lo que representa una brecha de 25 puntos entre los modelos propietarios de vanguardia y los modelos abiertos de vanguardia.
- Las tareas de filtrado de listas son un muro infranqueable: 0% para todos los modelos. El widget de lista de ServiceNow utiliza un HTML no estándar con el que ninguno de los agentes probados pudo interactuar de manera confiable. El ordenamiento es casi igual de deficiente: GPT-4o alcanza solo un 10% en tareas de ordenamiento de listas.
- Las tareas del catálogo de servicios son sorprendentemente manejables: GPT-4o alcanza un 77,8% en las nueve tareas del catálogo de servicios, donde la interfaz de usuario es más convencional y las acciones requeridas se asemejan mucho a patrones de llenado de formularios que el modelo probablemente ha visto durante su entrenamiento.
- Las observaciones multimodales apenas ayudan. Añadir capturas de pantalla a las observaciones de GPT-4o produjo "mejoras de rendimiento muy menores", lo que sugiere que el cuello de botella es la comprensión de la estructura de la interfaz de usuario, no la ausencia de información visual.
- La cadena de pensamiento es fundamental. Eliminarla reduce el rendimiento de Llama3-70B en unos 10 puntos en WorkArena, lo que confirma que las tareas web de múltiples pasos requieren un razonamiento intermedio explícito y no solo la predicción de acciones.
- Los mecanismos de memoria resultaron contraproducentes. Activar el flag
use_think_historyprovocó que los agentes "se aferraran a decisiones tomadas en los primeros pasos, incluso a las erróneas", un ejemplo concreto de compromiso rígido disfrazado de planificación.
Qué se sostiene y qué no
La propiedad más valiosa de este benchmark es que se ejecuta contra una instancia de ServiceNow en vivo: el éxito se determina por si el estado del sistema cambió correctamente, no por la coincidencia de cadenas contra un resultado esperado. Esto hace que el 0% en las tareas de filtrado de listas sea particularmente revelador; no hay lugar donde esconderse. La variedad de tareas también es genuinamente representativa: las seis categorías abarcan la amplitud de aquello en lo que los trabajadores del conocimiento invierten su tiempo, sin ser tareas de exhibición seleccionadas a conveniencia.
Lo que encuentro menos satisfactorio es el tratamiento de los modos de falla. El artículo identifica que las estructuras HTML exóticas, los iFrames anidados y los DOMs de sombra (shadow DOMs) rompen a los agentes, pero no realiza una ablación sistemática de qué características estructurales son responsables o en qué proporción. El problema del tamaño del DOM —árboles HTML que oscilan entre 40.000 y 500.000 tokens— se menciona pero no se analiza en profundidad: no sabemos si el resumen, la fragmentación (chunking) o las observaciones exclusivas del árbol de accesibilidad recuperarían el rendimiento. La arquitectura de agente único tampoco se compara nunca con una configuración multi-agente descompuesta (una división entre selector y ejecutor, por ejemplo), por lo que no está claro si el resultado del 0% en el filtrado de listas es un problema de interfaz, de planificación o de ambos.
También cabe plantearse la validez de la plataforma. ServiceNow es un ecosistema de software empresarial específico con patrones de interfaz de usuario idiosincrásicos. Los resultados nos dicen mucho sobre los agentes para ServiceNow y algo menos sobre los agentes web empresariales en general. Generalizar el fallo del filtrado de listas a, por ejemplo, una interfaz de beanquery o una herramienta de hoja de cálculo requiere evidencia independiente.
Por qué esto es importante para la IA en finanzas
Los resultados de WorkArena son un punto de calibración al que vuelvo constantemente para la agenda de automatización de Beancount. El patrón de falla es instructivo: los agentes se desempeñan bien en tareas que parecen formularios web (catálogo de servicios, 77,8%) y colapsan en tareas que requieren una interacción precisa con widgets de interfaz de usuario estructurados y no estándar (filtrado de listas, 0%). Un agente de Beancount que realice registros en el libro mayor se enfrentaría a un panorama mixto: la parte de lenguaje natural a transacción se asemeja a las tareas de llenado de formularios donde el rendimiento es razonable; pero las partes de consulta, filtrado y conciliación —encontrar entradas específicas, ordenar por fecha, aplicar filtros de cuenta— se parecen mucho más a las tareas de lista donde todo falla.
El artículo también refuerza una lección de los registros de CRITIC y Reflexion: la verificación externa importa más que el razonamiento interno. Las tareas de WorkArena tienen éxito o fallan según el estado del sistema, y esa verdad de base (ground truth) clara es lo que hace que el benchmark sea honesto. Para los agentes de escritura de Beancount, esto argumenta fuertemente a favor de un diseño donde cada cambio confirmado en el libro mayor se verifique contra la API de Python de Beancount antes de ser aceptado, no solo comprobado por el propio razonamiento del agente. El techo del 42,7% del mejor modelo en ICML 2024 sugiere que incluso para tareas de interfaz de usuario empresarial convencionales, la brecha entre "ocasionalmente útil" y "fiablemente automatizable" sigue siendo grande.
Qué leer a continuación
- WorkArena++ (arXiv:2407.05291, NeurIPS 2024) — la continuación del mismo equipo de ServiceNow con 682 tareas compositivas que requieren planificación, razonamiento aritmético y recuperación de múltiples documentos; responde directamente si escalar la complejidad de la tarea expone nuevos modos de falla más allá del muro de interacción con la interfaz de usuario.
- WebArena (arXiv:2307.13854, ICLR 2024) — el benchmark complementario de agentes web de propósito general (812 tareas en comercio electrónico, foros, alojamiento de código, CMS) donde GPT-4 alcanza solo un 14,41% frente al 78% del rendimiento humano; sitúa las cifras de WorkArena en el panorama más amplio de los agentes web.
- OSWorld (arXiv:2404.07972, NeurIPS 2024) — extiende la evaluación de la automatización empresarial a entornos completos de computadoras de escritorio, incluyendo aplicaciones reales (LibreOffice, VS Code, Chrome); la prueba más exhaustiva de si los modos de falla de WorkArena son específicos de la interfaz de usuario o reflejan una brecha de competencia del agente más profunda.
