Ir al contenido principal

WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición

· 6 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

WorkArena++ (arXiv:2407.05291, NeurIPS 2024) amplía el benchmark original de WorkArena a 682 tareas empresariales de composición que requieren encadenar múltiples flujos de trabajo; exactamente el trabajo de conocimiento de varios pasos que un agente de automatización de Beancount necesitaría gestionar. Lo estoy leyendo ahora porque el registro original de WorkArena (LOG-061) dejó abierta la pregunta de qué sucede cuando se componen tareas atómicas en flujos de trabajo reales. La respuesta, como deja claro este artículo, es que todos los LLM actuales caen en picado.

El artículo

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert et al. en ServiceNow Research toman los componentes de tareas atómicas del WorkArena original —completar formularios, filtrar listas, buscar en bases de conocimientos, leer paneles de control— y los componen en flujos de trabajo empresariales realistas de varios pasos. El benchmark se ejecuta por completo dentro de una instancia activa de ServiceNow a través del entorno BrowserGym, lo que proporciona a los agentes observaciones en HTML y entradas opcionales de capturas de pantalla.

La decisión estructural clave es una jerarquía de dificultad de tres niveles. El L1 es el WorkArena original: tareas atómicas de una sola acción como "filtrar esta lista por estado = Cerrado". El L2 introduce tareas de composición con instrucciones explícitas paso a paso: el agente recibe un procedimiento completo en el chat pero debe ejecutar una cadena de subtareas en diferentes módulos de ServiceNow sin perder el hilo. El L3 es la versión difícil: el agente solo recibe un objetivo implícito ("incorporar a un nuevo empleado") y primero debe recuperar el procedimiento relevante de la base de conocimientos de la empresa antes de planificar y ejecutar los pasos. Así es exactamente como operan los trabajadores de conocimiento reales.

Los autores también incluyen un mecanismo para generar automáticamente trazas de observación-acción de verdad fundamental (ground-truth) a partir de soluciones de oráculo, lo que permite el ajuste fino supervisado sin anotación manual.

Ideas clave

  • Los humanos resuelven el 93,9% de las tareas compuestas; GPT-4o resuelve el 2,1%. Esto no es un fallo de comprensión del lenguaje, sino un fallo de planificación y ejecución a escala.
  • Ningún modelo completa ninguna tarea L3. El requisito de recuperar un procedimiento, planificar los pasos y ejecutar sin una guía explícita no ha sido resuelto por ninguno de los modelos probados, incluido GPT-4o-v (la variante con capacidad de visión).
  • Solo GPT-4o y GPT-4o-v tienen éxito en un subconjunto de tareas L2, principalmente subtareas de memorización. Los agentes basados en Llama3 fallan en gran medida tanto en L2 como en L3.
  • El realismo de las tareas L3 es la elección de diseño clave: recibir un objetivo implícito como "incorporar a un nuevo empleado" sin un procedimiento —y luego tener que buscarlo— es como los empleados reciben realmente las asignaciones en entornos empresariales.
  • Se prueban cinco dimensiones de capacidad: planificación bajo restricciones, recuperación de información, razonamiento basado en datos, memoria secuencial y reconocimiento de tareas inviables.
  • Modos de fallo documentados: alucinaciones sobre elementos de la interfaz de usuario, incapacidad para mantener planes de varios pasos en un contexto largo y fallo al cruzar información de documentos separados.

Qué se sostiene — y qué no

El titular del 93,9% frente al 2,1% es impactante pero mecánicamente explicable. L2 y L3 requieren que un modelo recuerde lo que hizo hace tres pasos, correlacione la información recuperada de un documento con un formulario que está a punto de completar y sepa cuándo una subtarea depende de completar una anterior. Estas acciones no son exóticas (los humanos las realizan sin esfuerzo), pero los agentes LLM actuales fallan en la coordinación.

Lo que encuentro más valioso aquí es el diseño L2 frente a L3. El L2 entrega un procedimiento al agente; el L3 no. La caída de rendimiento entre ellos aisla exactamente una capacidad: sustituir el seguimiento de instrucciones explícitas por la recuperación más planificación. Esa es la parte difícil del trabajo de conocimiento autónomo, y el benchmark la expone claramente.

Lo que el artículo no hace es mostrar que el mecanismo de trazas de entrenamiento realmente ayude. Los autores proporcionan la infraestructura para generar datos de ajuste fino y afirman que los modelos pueden entrenarse con ellos, pero no informan de los resultados al hacerlo. Sin ese experimento, WorkArena++ es un benchmark en el que fallan todos los agentes actuales, sin un camino demostrado hacia la mejora. Eso limita su utilidad a corto plazo como objetivo de entrenamiento.

La dependencia de ServiceNow también limita la generalización. ServiceNow tiene una interfaz inusualmente estructurada y bien documentada. Si los agentes fallan aquí, fallarán aún más en los sistemas empresariales más desordenados que la mayoría de las organizaciones realmente ejecutan.

Por qué esto importa para la IA financiera

La conexión con la automatización de Beancount es directa. Un agente de contabilidad autónomo realiza por defecto un trabajo al estilo L3: un usuario dice "concilia los gastos del mes pasado" y el agente debe recuperar la estructura de cuentas relevante del libro mayor (ledger), planificar qué asientos inspeccionar, cruzarlos con los datos bancarios importados y ejecutar las operaciones de escritura; todo ello sin una guía paso a paso. WorkArena++ pone una cifra a lo mal que los agentes actuales gestionan este patrón.

El mecanismo de trazas de entrenamiento también es aplicable de inmediato. Las tareas de Beancount tienen soluciones de oráculo deterministas (los asientos contables correctos son verificables), lo que significa que se podrían generar trazas de verdad fundamental a escala para ajustar un agente especializado en libros mayores. Eso es precisamente lo que WorkArena++ permite sin explotarlo en el propio artículo. Es un plano de diseño más que un problema resuelto.

La tasa de éxito de cero en L3 es el punto de calibración más útil para Bean Labs: incluso en un entorno empresarial controlado con datos limpios y una interfaz bien estructurada, los agentes de última generación aún no pueden manejar tareas de composición con objetivos implícitos. Esa brecha es donde vive la investigación interesante.

Qué leer a continuación

  • TheAgentCompany (arXiv:2412.14161): 175 tareas dentro de una empresa de software simulada con herramientas internas reales (GitLab, RocketChat); el mejor agente completa ~30%; un entorno empresarial más naturalista que ServiceNow.
  • τ²-bench (arXiv:2506.07982): amplía τ-bench a entornos de control dual donde tanto el agente como el usuario pueden modificar el estado compartido simultáneamente; directamente relevante para las sesiones de Beancount donde usuarios y agentes co-editan un libro mayor.
  • CRMArena-Pro (arXiv:2505.18878): evaluación holística de agentes LLM a través de escenarios de negocio CRM utilizando modelos más nuevos; prueba si la brecha de capacidad de WorkArena++ se ha reducido.