¿Pueden los agentes de LLM ser Directores Financieros? La simulación de 132 meses de EnterpriseArena revela una brecha considerable
La pregunta más ambiciosa en la IA financiera actual no es "¿puede un LLM responder a una pregunta sobre un balance de situación?", sino "¿puede un LLM gestionar el dinero de una empresa a lo largo del tiempo sin que se agote?". El estudio de Yi Han et al., Can LLM Agents Be CFOs? (arXiv:2603.23638), construye EnterpriseArena para poner a prueba precisamente eso, y la respuesta es: apenas, y no de la forma que cabría esperar.
El artículo
EnterpriseArena es una simulación de 132 meses (11 años) de asignación de recursos a nivel de Director Financiero (CFO). Cada paso de tiempo representa un mes. El agente recibe observaciones parciales de las finanzas de la empresa, documentos comerciales anonimizados y señales macroeconómicas extraídas de datos de FRED, CBOE y S&P Global. Dispone de un presupuesto de 20 llamadas a herramientas por mes repartidas en cuatro operaciones: verificar la posición de caja, revisar registros financieros, analizar las condiciones del mercado y proyectar flujos de caja. Debe elegir una de tres acciones: cerrar los libros (conciliación), solicitar financiación (capital o deuda, con resultados estocásticos) o pasar. La restricción principal es que el saldo de caja de la empresa debe ser no negativo en cada paso de tiempo; la infracción termina el episodio con una puntuación de cero. Sujeto a la supervivencia, el agente maximiza la valoración terminal de la empresa bajo la fórmula de puntuación Rev_T × 5 + Cash_T − 5,000 × N_tools, que penaliza explícitamente el uso excesivo de herramientas.
Se evaluaron once LLMs, incluidos Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B y Qwen3.5-9B, junto con una línea base de expertos humanos validada por dos profesionales de las finanzas con 8 y 14 años de experiencia respectivamente.
Ideas clave
- Las tasas de supervivencia varían drásticamente entre modelos: Qwen3.5-9B sobrevive en el 80% de las ejecuciones, Gemini-3.1-Pro en el 50%, Claude-Haiku-4.5 y GLM-5 en el 20% cada uno, y GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B y Mixtral-8x7B en el 0%. El promedio general de los LLM es del 26%.
- Los modelos más grandes no superan de forma fiable a los más pequeños: Qwen3.5-9B (9B parámetros, 80% de supervivencia, $78.8M de valoración terminal) vence decisivamente a Qwen3.5-397B (397B parámetros, 20% de supervivencia) y a GPT-5.4 (0% de supervivencia).
- La brecha respecto a los humanos es grande: la línea base humana logra un 100% de supervivencia y una valoración terminal de $152.2M ± $29.6M; el promedio de los LLM es de $28.2M con un 26% de supervivencia.
- El cierre de libros es el cuello de botella crítico: los expertos humanos cierran los libros (concilian) en el 94.3% de los pasos de tiempo; los LLMs promedian un 19.3%. Esta es la acción que produce estados financieros fidedignos y permite decisiones posteriores racionales.
- La recopilación de información sin acción es letal: Qwen3.5-397B utiliza herramientas de análisis de mercado y previsión a una tasa alta durante toda la simulación, pero casi nunca cierra los libros (tasa de cierre del 0.0%) y casi nunca solicita financiación, muriendo por agotamiento de caja a pesar de "saber" lo que estaba sucediendo.
- La penalización por presupuesto de herramientas importa: la fórmula de puntuación castiga activamente a los agentes que consultan compulsivamente en lugar de actuar, una restricción que refleja el coste de oportunidad real.
Lo que se mantiene y lo que no
El diseño de doble objetivo —supervivencia como restricción estricta más valoración terminal— es una de las elecciones más sólidas en los benchmarks de agentes recientes. Refleja cómo operan realmente los CFOs: no puedes optimizar el crecimiento si te has quedado sin dinero. La anonimización de las fechas del calendario y de las identidades de las empresas evita que los modelos realicen una correspondencia de patrones basada en resultados históricos memorizados, lo que supone una mejora metodológica genuina respecto a los benchmarks financieros que utilizan tickers y fechas reales.
La taxonomía de modos de fallo que los autores identifican mediante estudios de casos es creíble: GPT-5.4 logra una tasa de éxito del 99.1% (lo que significa que toma acción en casi cada paso de tiempo al no hacer nada), mientras que Qwen3.5-397B confunde el análisis con la acción. Estos son modos de fallo conductualmente distintos con remedios diferentes.
Lo que me convence menos: el entorno macro estocástico utiliza ruido gaussiano para aproximar los shocks del mercado, lo cual los propios autores reconocen que no puede replicar eventos de cisne negro o la irracionalidad humana. El presupuesto de herramientas de 20 llamadas por mes también es algo arbitrario; los CFOs reales no se enfrentan a este tipo de restricción de tasa de consulta en su propia memoria, lo que plantea la duda de si el benchmark mide el juicio financiero a largo plazo o algo más parecido a "RAG bajo presión de recursos". La estructura de agente único es otra limitación explícita que nombran los autores: los CFOs reales operan dentro de jerarquías de controladores, analistas de FP&A y equipos de tesorería, y el artículo no intenta simular esto.
El hallazgo de que el tamaño del modelo no predice la supervivencia es sorprendente y probablemente genuino, pero el mecanismo no está bien explicado. Los autores lo señalan sin desglosar completamente si se trata de un fallo en el seguimiento de instrucciones, en la coherencia de contexto largo o en la calibración del riesgo.
Por qué esto importa para la IA financiera
La acción de cierre de libros en EnterpriseArena es esencialmente la aseveración balance de Beancount y el paso de conciliación del libro mayor: el momento en el que el agente se compromete con una visión real del estado financiero antes de actuar. El hallazgo de que los LLMs omiten esto el 80% de las veces se traslada directamente al problema de seguridad de escritura: un agente que evita la conciliación antes de actuar es un agente que actúa sobre un estado obsoleto o alucinado. Para la automatización de Beancount, esto sugiere que el paso de conciliación debería ser obligatorio y verificable —no opcional— en cualquier bucle de agente.
El horizonte de 132 meses también es directamente análogo a la gestión de libros mayores plurianuales. El hallazgo de que la conciencia situacional sostenida se degrada con el tiempo es la misma degradación que esperaríamos en un agente de Beancount que gestiona cinco años de historial de transacciones: incluso si el agente tiene todos los datos en contexto, puede que no actúe sobre ellos de forma coherente en el mes 60. Esto sugiere que son necesarios puntos de control de conciliación forzada periódicos —no solo consultas reactivas— en sesiones de agentes de Beancount de larga duración.
La trampa de recopilación de información en la que cae Qwen3.5-397B es una advertencia de diseño útil: los agentes equipados con muchas herramientas de recuperación pueden preferir la recuperación al compromiso, especialmente cuando el coste de una acción incorrecta (corrupción del libro mayor) es alto. Las restricciones de presupuesto de herramientas del tipo que utiliza EnterpriseArena podrían ayudar a imponer disciplina de acción en los agentes de escritura de Beancount.
Qué leer a continuación
- EcoGym (arXiv:2602.09514): benchmark complementario de economía de largo horizonte en entornos de Ventas, Freelance y Operaciones durante más de 1,000 pasos; ningún modelo domina en los tres, lo que sugiere que los modos de fallo en EnterpriseArena no son idiosincrásicos de un solo diseño de benchmark.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral): reformula el diseño de flujos de trabajo como una búsqueda en el espacio de código con MCTS y retroalimentación de LLM; si EnterpriseArena muestra que los comportamientos de agentes diseñados manualmente fallan, AFlow es el siguiente paso obvio para descubrir mejores arquitecturas automáticamente.
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024): el marco fundamental de entrenamiento y evaluación del uso de herramientas; comprender cómo se aprende el comportamiento de llamada a herramientas en ToolLLM aclara si el fallo de evitación de acción en EnterpriseArena es un problema de entrenamiento o de prompting.
