TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real
TheAgentCompany es el benchmark de agentes empresariales más realista que he leído hasta ahora en esta serie. Proviene del grupo de Graham Neubig en la CMU y fue presentado a NeurIPS 2024, motivado por una brecha clara: los benchmarks existentes evalúan la navegación web aislada o la resolución de problemas en GitHub, pero las tareas reales en el lugar de trabajo requieren que los agentes naveguen por plataformas internas, envíen mensajes a colegas, escriban código y ejecuten programas dentro de una sola tarea. Lo estoy leyendo ahora porque es el experimento controlado más cercano que tenemos sobre si los agentes de LLM pueden funcionar realmente como compañeros de trabajo digitales en un entorno relevante.
El artículo
Xu et al. construyen una empresa simulada e independiente: un espacio de trabajo local más una intranet que ejecuta instancias reales de GitLab, OwnCloud, Plane (gestión de proyectos) y RocketChat (mensajería de equipo). El entorno también incluye colegas simulados (NPCs respaldados por LLMs) para que los agentes puedan enviar mensajes y recibir orientación a mitad de la tarea. Las tareas abarcan siete categorías de roles: ingeniería de desarrollo de software (SDE), gestión de proyectos, RR.HH., ciencia de datos, finanzas, administración y una categoría general de "otros". El total es de 175 tareas, seleccionadas por 20 estudiantes de ciencias de la computación e ingenieros de software durante aproximadamente 3,000 horas-persona a lo largo de dos meses.
La evaluación utiliza un sistema de puntos de control: cada tarea tiene hitos intermedios que valen una fracción de la puntuación total, además de un bono por la finalización completa. Los evaluadores son deterministas (verifican el contenido de los archivos, las salidas del código, el estado del entorno) o basados en LLM (evalúan texto libre). Todos los modelos se ejecutan bajo el marco de agentes OpenHands, que proporciona ejecución de código, navegación web y acceso a la terminal desde un único arnés configurable.
Ideas clave
- Gemini-2.5-Pro lidera con un 30.3% de finalización completa y una puntuación parcial de 39.3%; le sigue Claude-3.7-Sonnet con 26.3% / 36.4%; GPT-4o alcanza solo el 8.6% / 16.7%; Llama-3.1-405B logra un 7.4%.
- El mejor modelo promedia aproximadamente 27 pasos de agente y cuesta más de $4 por tarea, incluso para tareas que los autores describen como más simples que la complejidad real del lugar de trabajo.
- Las tareas de finanzas se encuentran entre las categorías más difíciles, junto con administración y ciencia de datos; las tareas de SDE son sistemáticamente las más fáciles a pesar de requerir conocimientos técnicos más especializados.
- Predominan tres modos de fallo: navegar por interfaces de usuario web complejas (especialmente la suite ofimática de OwnCloud), no utilizar productivamente los mensajes de los colegas ("falta de habilidades sociales") y abandonar tareas administrativas de múltiples documentos que requieren tediosas referencias cruzadas.
- Los autores atribuyen la ventaja de SDE directamente al sesgo de los datos de entrenamiento: el preentrenamiento de los LLM se inclina fuertemente hacia el código y los datos de GitHub debido a benchmarks prominentes y a la abundante señal de entrenamiento pública, por lo que los modelos generalizan mucho mejor en tareas de software que en flujos de trabajo de RR.HH. o finanzas.
Lo que se sostiene — y lo que no
El diseño del entorno es realmente impresionante. Ejecutar instancias reales de GitLab, OwnCloud y RocketChat en lugar de stubs simulados significa que los agentes enfrentan una complejidad de interfaz de usuario auténtica: ventanas emergentes reales, flujos de autenticación y casos de borde. La puntuación parcial basada en puntos de control también es la decisión correcta: un éxito/fallo binario haría que la mayoría de las tareas parecieran uniformemente desesperanzadoras, ocultando dónde progresan realmente los agentes.
Dicho esto, vale la pena señalar varias debilidades. Lo más crítico es que no existe una base de referencia de rendimiento humano. Los autores reconocen esto: las restricciones de recursos impidieron recopilar tiempos humanos o tasas de éxito, lo que significa que no tenemos un denominador. El 30% de finalización por parte de los agentes suena mal, pero sin saber si un humano pasaría 20 minutos o 3 horas en la misma tarea, o si algunas tareas son genuinamente ambiguas, el número es difícil de contextualizar.
La categoría de finanzas tiene solo 12 tareas. Eso es demasiado poco para extraer conclusiones sólidas sobre fallos específicos de finanzas. ¿Son los agentes peores en finanzas debido a alguna propiedad del razonamiento financiero, o porque las tareas de finanzas casualmente involucran más navegación de documentos en OwnCloud? El artículo no puede desambiguar a esta escala, y los autores no intentan hacerlo.
Los autores también reconocen que las tareas "son generalmente del lado más sencillo debido a la necesidad de evaluar automáticamente con programas y casos de prueba". Las tareas de contabilidad o finanzas reales más difíciles (preparar una conciliación de cierre de año a partir de datos de origen inconsistentes, señalar problemas de cumplimiento normativo, producir un informe de gestión a través de múltiples períodos del libro mayor) son esencialmente imposibles de autoevaluar. Es probable que el benchmark submuestre exactamente las tareas que más importarían para los agentes financieros autónomos.
Por qué esto importa para la IA en finanzas
Los resultados aquí son aleccionadores de una manera útil. Una tasa de finalización del 30% en tareas que los autores califican como simplificadas significa que los agentes autónomos no están ni cerca de ser operativos para flujos de trabajo de contabilidad reales. La categoría de finanzas es específicamente débil, y los modos de fallo dominantes (UIs complejas, recuperación de múltiples documentos, ruptura de la comunicación con contrapartes humanas) son precisamente las habilidades que necesitaría un agente de automatización de Beancount: extraer datos del almacenamiento de documentos, realizar referencias cruzadas de transacciones entre informes y hacer preguntas aclaratorias antes de confirmar escrituras.
El costo de $4 por tarea para el mejor modelo es un factor determinante. A ese ritmo, ejecutar un agente en un cierre rutinario de fin de mes que involucre docenas de subtareas costaría cientos de dólares sin ninguna garantía de confiabilidad. El patrón de Gemini-2.0-Flash de cortar pérdidas temprano (logrando un 19.0% de puntuación parcial a menos de $1 por tarea) sugiere que hay un valor de ingeniería real en saber cuándo detenerse y escalar el problema en lugar de quemar tokens en una trayectoria fallida.
Los NPCs que simulan colegas son una primitiva de diseño interesante que se mapea directamente a la restricción real de Beancount: los agentes que ignoran los comentarios de los usuarios y proceden con suposiciones incorrectas son más peligrosos que los agentes que se detienen y preguntan. El hallazgo del benchmark de que los modelos actuales no logran extraer información útil de los mensajes de los colegas debería ser una entrada directa de diseño para cualquier agente de escritura (write-back) que interactúe con un contador humano a mitad de una sesión.
Qué leer a continuación
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — el marco de agentes en el que se basa TheAgentCompany; arXiv:2407.16741, ICLR 2025. Comprender la arquitectura CodeAct + navegación de OpenHands aclara qué capacidades del agente son básicas frente a lo que TheAgentCompany está probando realmente.
- DocFinQA: A Long-Context Financial Reasoning Dataset — extiende 7,437 preguntas de FinQA a presentaciones completas de la SEC que promedian 123,000 palabras; arXiv:2401.06915, ACL 2024. Evalúa directamente el razonamiento financiero en documentos largos que las 12 tareas de finanzas de TheAgentCompany no pueden muestrear adecuadamente.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Una encuesta de 2025 sobre el panorama de la evaluación de agentes que pone a TheAgentCompany en contexto junto con WebArena, OSWorld y SWE-bench, y rastrea cómo las opciones de diseño de los benchmarks moldean lo que podemos concluir sobre la capacidad de los agentes.
