Ir al contenido principal

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

· 6 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Ayer leí WebArena, que situaba a los agentes web autónomos en aproximadamente un 14% de éxito frente a una base de referencia humana del 78%. OSWorld (Xie et al., NeurIPS 2024) plantea la misma pregunta para el escritorio completo: Ubuntu, Windows, macOS y aplicaciones reales con interfaz gráfica (GUI). La respuesta es, en todo caso, más humillante, y el modo de fallo es lo suficientemente distinto como para resultar interesante por sí mismo.

El artículo

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld construye un benchmark de 369 tareas basadas en aplicaciones de escritorio reales: LibreOffice, Chrome, VS Code, GIMP, Thunderbird, VLC y flujos de trabajo multiaplicación. Cada tarea incluye un script de evaluación programática que verifica el estado real del sistema tras la ejecución, sin heurísticas de coincidencia de cadenas ni "LLM como juez". La configuración utiliza máquinas virtuales para que las tareas comiencen desde un estado reproducible y cubre los tres sistemas operativos principales.

Los autores prueban una gama de modelos de vanguardia (GPT-4V, Gemini-Pro-Vision, Claude-3 Opus, Mixtral, CogAgent) a través de cuatro configuraciones de entrada: solo captura de pantalla, solo árbol de accesibilidad, captura de pantalla más árbol de accesibilidad, y Set-of-Marks (SoM, donde los elementos interactivos se superponen con etiquetas numéricas antes de que el modelo actúe).

Ideas clave

  • Los humanos en tareas desconocidas tienen éxito el 72,36% de las veces. El mejor modelo en el momento de la presentación logra un 12,24%. La brecha es de unos 60 puntos porcentuales.
  • El rendimiento solo con capturas de pantalla para los modelos superiores (GPT-4V, Gemini-Pro-Vision) se sitúa en torno al 5,26%–5,80%, lo que significa que añadir contexto estructurado duplica aproximadamente el éxito, pero sigue dejando un 87% de fallos.
  • Las tareas de flujo de trabajo multiaplicación son la categoría más difícil con un techo del 6,57%, en comparación con las tareas de SO/CLI donde las interfaces basadas en texto facilitan el anclaje.
  • El árbol de accesibilidad y Set-of-Marks ayudan, pero su beneficio depende del modelo: los autores informan que también pueden introducir confusión al abrumar al modelo con una estructura irrelevante.
  • El progreso posterior a la publicación ha sido rápido: Agent S (GPT-4o, memoria jerárquica) alcanzó el 20,58%; ARPO basado en RL llegó al 29,9%; Agent S3 (Simular AI, 2025) afirma alcanzar el 62,6% en la configuración de 100 pasos, acercándose a la paridad humana. Sin embargo, la mayoría de esos avances provienen de mejores modelos de anclaje y ajuste fino por aprendizaje por refuerzo (RL), no de los modelos LLM base probados originalmente en OSWorld.
  • Análisis de errores de 550 fallos: más del 75% son imprecisiones en los clics del ratón; el agente razona correctamente pero hace clic en el píxel equivocado. Esto no es un fallo de razonamiento; es un fallo de anclaje visuomotor.

Qué se sostiene y qué no

El diseño del benchmark es genuinamente riguroso. La evaluación basada en la ejecución sobre máquinas virtuales reales con 134 scripts de evaluación distintos elimina los juicios subjetivos que plagan muchos benchmarks de agentes. Es una contribución metodológica significativa y por eso la cifra (12,24%) es creíble.

La pregunta más difícil es qué mide realmente ese 12,24%. La distribución de tareas está sesgada hacia aplicaciones con mucha carga de interfaz gráfica donde los clics con precisión de píxel importan enormemente. Un agente de Beancount que se ejecute completamente en la interfaz de línea de comandos (CLI) o genere archivos de texto probablemente tendría un rendimiento mucho mejor en este benchmark que un agente que realice el formato de hojas de cálculo en LibreOffice. La cifra principal agrupa demandas cognitivas muy diferentes (control motor espacial, planificación de múltiples pasos, conocimiento del dominio) y atribuirla a una única afirmación de "los agentes no pueden usar computadoras" es una simplificación excesiva.

El hallazgo de que "Set-of-Marks puede confundir a algunos modelos" es interesante pero poco explorado. El artículo señala la varianza sin explicar completamente qué tipos de tareas o modelos se ven beneficiados frente a los perjudicados. Esto parece la cuestión más importante para los profesionales que diseñan interfaces de usuario para agentes, y se le dedica un solo párrafo.

También soy escéptico sobre qué tan bien la muestra de 369 tareas cubre la larga cola de los flujos de trabajo reales. Las tareas son seleccionadas por investigadores que necesariamente se inclinan hacia tareas verificables. Las tareas contables del mundo real genuinamente ambiguas —como "limpiar estos nombres de comercios inconsistentes"— son difíciles de evaluar programáticamente y probablemente estén subrepresentadas.

Por qué esto es importante para la IA en finanzas

El hallazgo de que el 75% de los fallos son errores de anclaje es directamente relevante para los agentes de Beancount, aunque Beancount viva en la capa de texto. El patrón subyacente —los agentes planifican correctamente pero ejecutan incorrectamente— se traslada a los fallos de escritura en el libro mayor donde un agente genera la transacción correcta pero la escribe en la cuenta equivocada o con una fecha transpuesta. En ambos casos, el cuello de botella es la ejecución precisa, no el razonamiento estratégico.

El rendimiento del flujo de trabajo multiaplicación (6,57%) es la cifra que encuentro más aleccionadora para Bean Labs. Los flujos de trabajo contables reales casi siempre abarcan múltiples aplicaciones: una exportación CSV bancaria, un archivo Beancount, una hoja de cálculo de conciliación, un recibo en PDF. Si los agentes de GUI tienen dificultades catastróficas en la coordinación multiaplicación incluso en tareas seleccionadas, un agente de Beancount que necesite orquestar importaciones, ediciones del libro mayor y generación de informes enfrenta un desafío estructuralmente similar, incluso en un contexto de CLI donde no hay clics de píxeles involucrados.

La buena noticia de la trayectoria posterior al artículo (Agent S3 con un 62,6%) es que estas no son barreras fundamentales. Son solucionables con mejores modelos de anclaje y ajuste fino por RL. Pero ese progreso requirió 18 meses y una capacidad de cómputo significativa para el entrenamiento de RL, lo cual no es el nivel de capacidad predeterminado que un agente de Beancount puede asumir de un modelo de vanguardia mediante prompts.

Qué leer a continuación

  • AndroidWorld (Rawles et al., arXiv:2405.14573): extiende OSWorld a dispositivos Android con tareas parametrizadas dinámicamente, relevante para las interfaces móviles de Beancount.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025): adapta OSWorld a Windows con más de 150 tareas; valida de forma independiente que la brecha persiste en todos los sistemas operativos.
  • Agent S2 (Agashe et al., arXiv:2504.00906): arquitectura de generalista-especialista composicional que impulsa significativamente el estado del arte; vale la pena entender la arquitectura antes de diseñar un planificador de múltiples pasos para Beancount.