AI Agents

Todo sobre AI Agents

Un artículo

Autonomous AI agent benchmarks and evaluations for real-world task completion

Volver a todas las publicaciones Ver todas las etiquetas

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

OSWorld (NeurIPS 2024) evalúa agentes de IA multimodales en 369 tareas reales de escritorio en Ubuntu, Windows y macOS, encontrando una brecha de 60 puntos porcentuales entre el mejor modelo (12,24%) y el rendimiento humano (72,36%), con un 75% de los fallos atribuidos a errores de anclaje visuomotor en lugar de fallos de razonamiento.

Comience con Beancount.io

Tome el control de sus finanzas con nuestro sistema de contabilidad de partida doble de código abierto. Comience su libro mayor hoy mismo.

Comenzar gratis Ver precios

Construido con transparencia • Controlado por versiones • Impulsado por IA

Todo sobre AI Agents

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal