TheAgentCompany pone a prueba 175 tareas reales en el lugar de trabajo a través de una intranet simulada con GitLab, OwnCloud y RocketChat. El mejor modelo (Gemini-2.5-Pro) completa solo el 30% de las tareas a un costo de $4 cada una, revelando que los agentes autónomos aún están lejos de ser viables para los flujos de trabajo de contabilidad y finanzas.
WorkArena++ (NeurIPS 2024) evalúa 682 tareas empresariales de composición en tres niveles de dificultad. GPT-4o resuelve el 2,1% de ellas, mientras que los humanos resuelven el 93,9%, aislando exactamente por qué los agentes de IA actuales fallan en el trabajo de conocimiento con objetivos implícitos y por qué esa brecha es importante para la automatización contable autónoma.
WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.