Kunnen LLM-agents CFO's zijn? EnterpriseArena's 132-maanden simulatie onthult een grote kloof
De meest ambitieuze vraag in de financiële AI op dit moment is niet "kan een LLM een vraag beantwoorden over een balans?", maar "kan een LLM het geld van een bedrijf over een langere periode beheren zonder dat het opraakt?". Het onderzoek van Yi Han et al., Can LLM Agents Be CFOs? (arXiv:2603.23638), introduceert EnterpriseArena om precies dat te testen, en het antwoord is: nauwelijks, en niet op de manieren die je zou verwachten.
Het onderzoeksrapport
EnterpriseArena is een 132-maanden (11 jaar) durende simulatie van middelenallocatie op CFO-niveau. Elke tijdstap staat voor één maand. De agent ontvangt gedeeltelijke observaties van de financiële gegevens van het bedrijf, geanonimiseerde zakelijke documenten en macro-economische signalen afkomstig van FRED, CBOE en S&P Global-data. De agent heeft een budget van 20 tool-aanroepen per maand, verdeeld over vier operaties — het verifiëren van de kaspositie, het beoordelen van financiële overzichten, het analyseren van marktomstandigheden en het projecteren van kasstromen — en moet kiezen uit drie acties: de boeken afsluiten (reconciliatie), financiering aanvragen (eigen of vreemd vermogen, met stochastische uitkomsten), of niets doen. De belangrijkste beperking is dat het kassaldo van het bedrijf op elk tijdstip niet-negatief moet blijven; een overtreding beëindigt de episode met een score van nul. Mits de agent overleeft, maximaliseert hij de uiteindelijke ondernemingswaarde volgens de scoreformule Rev_T × 5 + Cash_T − 5.000 × N_tools, waarbij overmatig gebruik van tools expliciet wordt bestraft.
Elf LLM's werden geëvalueerd, waaronder Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B en Qwen3.5-9B, naast een menselijke expert-baseline gevalideerd door twee financiële professionals met respectievelijk 8 en 14 jaar ervaring.
Belangrijkste inzichten
- Overlevingspercentages variëren enorm tussen modellen: Qwen3.5-9B overleeft 80% van de runs, Gemini-3.1-Pro 50%, Claude-Haiku-4.5 en GLM-5 elk 20%, en GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B en Mixtral-8x7B elk 0%. Het algemene LLM-gemiddelde is 26%.
- Grotere modellen presteren niet betrouwbaarder dan kleinere: Qwen3.5-9B (9B parameters, 80% overleving, $78,8M eindwaardering) verslaat overtuigend Qwen3.5-397B (397B parameters, 20% overleving) en GPT-5.4 (0% overleving).
- De kloof met mensen is groot: de menselijke baseline behaalt 100% overleving en een eindwaardering van $152,2M ± $29,6M; het LLM-gemiddelde is $28,2M met 26% overleving.
- Boekafsluiting is het kritieke knelpunt: menselijke experts sluiten de boeken af (reconciliatie) in 94,3% van de tijdstappen; LLM's gemiddeld slechts in 19,3%. Dit is de actie die feitelijke financiële overzichten produceert en rationele vervolgbeslissingen mogelijk maakt.
- Informatie verzamelen zonder actie is dodelijk: Qwen3.5-397B gebruikt gedurende de simulatie veelvuldig tools voor marktanalyse en prognoses, maar sluit bijna nooit de boeken af (0,0% boekafsluitingspercentage) en vraagt bijna nooit om financiering, waardoor het sterft door een tekort aan liquide middelen ondanks het feit dat het "wist" wat er gebeurde.
- De boete op het tool-budget is van belang: de scoreformule straft agents die dwangmatig controleren in plaats van handelen, een beperking die de werkelijke opportuniteitskosten weerspiegelt.
Wat standhoudt — en wat niet
Het ontwerp met een dubbele doelstelling — overleving als harde voorwaarde plus de eindwaardering — is een van de sterkste keuzes in recente benchmarks voor agents. Het weerspiegelt hoe echte CFO's daadwerkelijk te werk gaan: je kunt de groei niet optimaliseren als het geld op is. De anonimisering van kalenderdata en bedrijfsidentiteiten voorkomt dat modellen patronen herkennen op basis van onthouden historische resultaten, wat een wezenlijke methodologische verbetering is ten opzichte van financiële benchmarks die echte tickers en data gebruiken.
De taxonomie van foutmodi die de auteurs via casestudy's identificeren is geloofwaardig: GPT-5.4 behaalt een pass-rate van 99,1% (wat betekent dat het bij bijna elke tijdstap actie onderneemt door niets te doen), terwijl Qwen3.5-397B analyse verwart met actie. Dit zijn gedragsmatig verschillende foutmodi met verschillende oplossingen.
Waar ik minder van overtuigd ben: de stochastische macro-omgeving gebruikt Gaussiaanse ruis om marktschokken te benaderen, waarvan de auteurs zelf toegeven dat deze geen 'black swan'-gebeurtenissen of menselijke irrationaliteit kunnen repliceren. Het tool-budget van 20 aanroepen per maand is ook enigszins willekeurig — echte CFO's worden niet geconfronteerd met dit soort beperkingen in hun eigen geheugen, wat de vraag oproept of de benchmark financiële oordeelsvorming op de lange termijn meet, of eerder iets dat lijkt op RAG onder tijdsdruk. De structuur met één enkele agent is een andere expliciete beperking die de auteurs noemen: echte CFO's opereren binnen hiërarchieën van controllers, FP&A-analisten en treasury-teams, en het rapport doet geen poging dit te simuleren.
De bevinding dat de omvang van het model de overlevingskansen niet voorspelt, is opvallend en waarschijnlijk reëel, maar het mechanisme erachter wordt niet goed uitgelegd. De auteurs merken het op zonder volledig te ontleden of het een gebrek is aan het opvolgen van instructies, coherentie in een lange context of risicocalibratie.
Waarom dit belangrijk is voor financiële AI
De boekafsluiting in EnterpriseArena is in feite de Beancount balance-bewering en de grootboekreconciliatiestap — het moment waarop de agent zich vastlegt op een feitelijk beeld van de financiële status voordat hij handelt. De bevinding dat LLM's dit in 80% van de gevallen overslaan, sluit direct aan op het write-back-veiligheidsprobleem: een agent die reconciliatie vermijdt voordat hij handelt, is een agent die handelt op basis van verouderde of gehallucineerde statussen. Voor Beancount-automatisering suggereert dit dat de reconciliatiestap verplicht en verifieerbaar moet zijn — niet optioneel — in elke agent-loop.
De horizon van 132 maanden is ook direct vergelijkbaar met grootboekbeheer over meerdere jaren. De bevinding dat aanhoudend situationeel bewustzijn na verloop van tijd afneemt, is dezelfde degradatie die we zouden verwachten bij een Beancount-agent die vijf jaar aan transactiegeschiedenis beheert: zelfs als de agent over alle data in de context beschikt, handelt hij er in maand 60 mogelijk niet meer coherent naar. Dit suggereert dat periodieke geforceerde reconciliatie-checkpoints — en niet alleen reactieve query's — noodzakelijk zijn in langlopende sessies met Beancount-agents.
De 'informatie-val' waar Qwen3.5-397B in trapt, is een nuttige waarschuwing voor ontwerpers: agents die zijn uitgerust met veel zoek-tools geven mogelijk de voorkeur aan zoeken boven actie, vooral wanneer de kosten van een foutieve actie (corruptie van het grootboek) hoog zijn. Beperkingen op het tool-budget, zoals EnterpriseArena die gebruikt, kunnen helpen om actiediscipline af te dwingen bij Beancount write-back-agents.
Wat nu te lezen
- EcoGym (arXiv:2602.09514) — een aanvullende langetermijn-economiebenchmark over Vending-, Freelance- en Operation-omgevingen over meer dan 1.000 stappen; geen enkel model domineert in alle drie, wat suggereert dat de foutmodi in EnterpriseArena niet specifiek zijn voor één benchmarkontwerp.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — herformuleert het ontwerp van workflows als een zoektocht in de code-ruimte met MCTS en LLM-feedback; als EnterpriseArena laat zien dat handmatig ontworpen agent-gedragingen falen, is AFlow de logische volgende stap voor het automatisch ontdekken van betere pipelines.
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — het fundamentele framework voor training en evaluatie van tool-gebruik; inzicht in hoe tool-aanroepend gedrag wordt aangeleerd in ToolLLM verduidelijkt of het vermijden van actie in EnterpriseArena een trainingsprobleem of een prompting-probleem is.
