Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important
La question la plus ambitieuse en finance IA actuellement n'est pas « un LLM peut-il répondre à une question sur un bilan ? » mais « un LLM peut-il gérer l'argent d'une entreprise dans le temps sans se retrouver à court de liquidités ? ». L'article de Yi Han et al., Can LLM Agents Be CFOs? (arXiv:2603.23638), construit EnterpriseArena pour tester précisément cela, et la réponse est : à peine, et pas de la manière attendue.
L'article
EnterpriseArena est une simulation d'allocation de ressources au niveau DAF sur 132 mois (11 ans). Chaque étape représente un mois. L'agent reçoit des observations partielles des finances de l'entreprise, des documents commerciaux anonymisés et des signaux macroéconomiques provenant des données de la FRED, du CBOE et de S&P Global. Il dispose d'un budget de 20 appels d'outils par mois répartis sur quatre opérations — vérification de la position de trésorerie, examen des registres financiers, analyse des conditions du marché et projection des flux de trésorerie — et doit choisir l'une des trois actions suivantes : clôturer les comptes (rapprochement), demander un financement (fonds propres ou dette, avec des résultats stochastiques) ou passer son tour. La contrainte principale est que le solde de trésorerie de l'entreprise doit rester positif à chaque étape ; une violation met fin à l'épisode avec un score de zéro. Sous réserve de survie, l'agent maximise la valorisation finale de l'entreprise selon la formule de score Rev_T × 5 + Cash_T − 5 000 × N_outils, qui pénalise explicitement l'utilisation excessive d'outils.
Onze LLM ont été évalués, notamment Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B et Qwen3.5-9B, aux côtés d'une base de référence d'experts humains validée par deux professionnels de la finance ayant respectivement 8 et 14 ans d'expérience.
Idées clés
- Les taux de survie varient considérablement selon les modèles : Qwen3.5-9B survit à 80 % des tests, Gemini-3.1-Pro à 50 %, Claude-Haiku-4.5 et GLM-5 à 20 % chacun, tandis que GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B et Mixtral-8x7B tombent tous à 0 %. La moyenne globale des LLM est de 26 %.
- Les modèles les plus volumineux ne surpassent pas systématiquement les plus petits : Qwen3.5-9B (9 milliards de paramètres, 80 % de survie, valorisation finale de 78,8 M$) bat de manière décisive Qwen3.5-397B (397 milliards de paramètres, 20 % de survie) et GPT-5.4 (0 % de survie).
- L'écart avec les humains est important : la base de référence humaine atteint 100 % de survie et une valorisation finale de 152,2 M$ ± 29,6 M$ ; la moyenne des LLM est de 28,2 M$ avec 26 % de survie.
- La clôture comptable est le goulot d'étranglement critique : les experts humains clôturent les comptes (rapprochement) lors de 94,3 % des étapes ; les LLM n'atteignent qu'une moyenne de 19,3 %. C'est pourtant cette action qui produit les états financiers réels et permet des décisions ultérieures rationnelles.
- La collecte d'informations sans action est mortelle : Qwen3.5-397B utilise massivement les outils d'analyse de marché et de prévision tout au long de la simulation, mais ne clôture presque jamais les comptes (taux de clôture de 0,0 %) et ne demande presque jamais de financement, mourant d'épuisement de trésorerie malgré sa « connaissance » de la situation.
- La pénalité budgétaire des outils compte : la formule de score punit activement les agents qui vérifient de manière compulsive au lieu d'agir, une contrainte qui reflète le coût d'opportunité réel.
Ce qui tient la route — et ce qui ne tient pas
La conception à double objectif — la survie comme contrainte stricte couplée à la valorisation finale — est l'un des choix les plus pertinents dans l'évaluation récente des agents. Elle reflète la réalité opérationnelle des directeurs financiers : on ne peut optimiser la croissance si l'on est à court d'argent. L'anonymisation des dates et de l'identité des entreprises empêche les modèles de s'appuyer sur la mémorisation de résultats historiques, ce qui constitue une réelle amélioration méthodologique par rapport aux bancs d'essai financiers utilisant des tickers et des dates réels.
La taxonomie des modes d'échec identifiée par les auteurs via des études de cas est crédible : GPT-5.4 atteint un taux de passage de 99,1 % (ce qui signifie qu'il agit à presque chaque étape en ne faisant rien), tandis que Qwen3.5-397B confond analyse et action. Ce sont des modes d'échec comportemental distincts nécessitant des remèdes différents.
Ce qui me convainc moins : l'environnement macro stochastique utilise un bruit gaussien pour simuler les chocs du marché, ce qui, de l'aveu même des auteurs, ne peut reproduire les événements de type « cygne noir » ou l'irrationalité humaine. Le budget de 20 appels d'outils par mois est également quelque peu arbitraire — les DAF réels ne font pas face à ce genre de contrainte de taux de requête sur leur propre mémoire, ce qui soulève la question de savoir si le test mesure le jugement financier à long terme ou plutôt une forme de RAG sous pression de ressources. La structure à agent unique est une autre limite explicite citée par les auteurs : les DAF réels opèrent au sein de hiérarchies de contrôleurs, d'analystes FP&A et d'équipes de trésorerie, ce que l'article ne tente pas de simuler.
Le constat selon lequel la taille du modèle ne prédit pas la survie est frappant et probablement authentique, mais le mécanisme n'est pas bien expliqué. Les auteurs le notent sans vraiment analyser s'il s'agit d'un échec de suivi des instructions, de cohérence contextuelle à long terme ou de calibration des risques.
Pourquoi c'est important pour l'IA en finance
L'action de clôture comptable dans EnterpriseArena correspond essentiellement à l'assertion balance de Beancount et à l'étape de rapprochement du grand livre — le moment où l'agent s'engage sur une vision réelle de l'état financier avant d'agir. Le constat que les LLM ignorent cela 80 % du temps renvoie directement au problème de sécurité des écritures : un agent qui évite le rapprochement avant d'agir est un agent qui agit sur un état obsolète ou halluciné. Pour l'automatisation de Beancount, cela suggère que l'étape de rapprochement devrait être obligatoire et vérifiable — et non optionnelle — dans toute boucle d'agent.
L'horizon de 132 mois est également directement analogue à la gestion d'un grand livre sur plusieurs années. Le constat que la conscience situationnelle soutenue se dégrade avec le temps est la même dégradation que l'on attendrait d'un agent Beancount gérant cinq ans d'historique de transactions : même si l'agent dispose de toutes les données en contexte, il peut ne pas agir de manière cohérente au 60e mois. Cela suggère que des points de contrôle de rapprochement forcés et périodiques — et pas seulement des requêtes réactives — sont nécessaires dans les sessions d'agents Beancount à long terme.
Le piège de la collecte d'informations dans lequel tombe Qwen3.5-397B est un avertissement de conception utile : les agents équipés de nombreux outils de recherche peuvent préférer la recherche à l'engagement, surtout lorsque le coût d'une action erronée (corruption du grand livre) est élevé. Des contraintes budgétaires sur les outils comme celles utilisées par EnterpriseArena pourraient aider à imposer une discipline d'action dans les agents d'écriture Beancount.
Pour aller plus loin
- EcoGym (arXiv:2602.09514) — banc d'essai économique complémentaire à long terme sur des environnements de vente, de freelance et d'exploitation sur plus de 1 000 étapes ; aucun modèle ne domine les trois, ce qui suggère que les modes d'échec d'EnterpriseArena ne sont pas propres à une seule conception de test.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — reformule la conception de flux de travail comme une recherche dans l'espace de code avec MCTS et retour d'information par LLM ; si EnterpriseArena montre que les comportements d'agents conçus manuellement échouent, AFlow est l'étape suivante évidente pour découvrir automatiquement de meilleurs pipelines.
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — le cadre fondamental de formation et d'évaluation de l'utilisation d'outils ; comprendre comment le comportement d'appel d'outils est appris dans ToolLLM permet de clarifier si l'échec de l'évitement d'action dans EnterpriseArena est un problème d'entraînement ou de prompting.
