Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa
La pregunta més ambiciosa en la IA per a finances ara mateix no és "pot un LLM respondre una pregunta sobre un balanç de situació?", sinó "pot un LLM gestionar els diners d'una empresa al llarg del temps sense que s'esgotin?". L'estudi de Yi Han et al. Can LLM Agents Be CFOs? (arXiv:2603.23638) construeix EnterpriseArena per provar exactament això, i la resposta és: amb prou feines, i no de la manera que s'esperaria.
L'article
EnterpriseArena és una simulació de 132 mesos (11 anys) d'assignació de recursos a nivell de CFO (Director Financer). Cada pas temporal representa un mes. L'agent rep observacions parcials de les dades financeres de l'empresa, documents empresarials anonimitzats i senyals macroeconòmics extrets de dades de FRED, CBOE i S&P Global. Té un pressupost de 20 crides a eines per mes distribuïdes en quatre operacions — verificar la posició de caixa, revisar registres financers, analitzar les condicions del mercat i projectar fluxos de caixa — i ha de triar una de les tres accions següents: tancar els llibres (conciliació), sol·licitar finançament (capital propi o deute, amb resultats estocàstics) o passar. La restricció principal és que el saldo de caixa de l'empresa ha de mantenir-se no negatiu en cada pas temporal; qualsevol violació acaba l'episodi amb una puntuació de zero. Si sobreviu, l'agent maximitza la valoració final de l'empresa sota la fórmula Rev_T × 5 + Cash_T − 5.000 × N_tools, que penalitza explícitament l'ús excessiu d'eines.
Es van avaluar onze LLM, incloent-hi Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B i Qwen3.5-9B, juntament amb una base de referència d'experts humans validada per dos professionals de les finances amb 8 i 14 anys d'experiència respectivament.
Idees clau
- Les taxes de supervivència varien enormement entre models: Qwen3.5-9B sobreviu al 80% de les execucions, Gemini-3.1-Pro al 50%, Claude-Haiku-4.5 i GLM-5 al 20% cadascun, i GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B i Mixtral-8x7B al 0%. La mitjana general dels LLM és del 26%.
- Els models més grans no superen de manera fiable els més petits: Qwen3.5-9B (9.000 milions de paràmetres, 80% de supervivència, 78,8 milions de dòlars de valoració final) bat decisivament Qwen3.5-397B (397.000 milions de paràmetres, 20% de supervivència) i GPT-5.4 (0% de supervivència).
- La bretxa respecte als humans és gran: la base de referència humana aconsegueix el 100% de supervivència i una valoració final de 152,2 milions de dòlars ± 29,6 milions; la mitjana dels LLM és de 28,2 milions de dòlars amb una supervivència del 26%.
- El tancament de llibres és el coll d'ampolla crític: els experts humans tanquen els llibres (concilien) en el 94,3% dels passos temporals; els LLM tenen una mitjana del 19,3%. Aquesta és l'acció que produeix estats financers verídics i permet decisions posteriors racionals.
- Recollir informació sense actuar és letal: Qwen3.5-397B utilitza eines d'anàlisi de mercat i previsió a un ritme elevat durant tota la simulació, però gairebé mai tanca els llibres (taxa de tancament del 0,0%) i gairebé mai sol·licita finançament, morint per esgotament de caixa malgrat "saber" què estava passant.
- La penalització del pressupost d'eines és important: la fórmula de puntuació castiga activament els agents que comproven compulsivament en lloc d'actuar, una restricció que reflecteix el cost d'oportunitat real.
Què se sosté — i què no
El disseny de doble objectiu — supervivència com a restricció rígida més valoració final — és una de les eleccions més encertades en les comparatives d'agents recents. Reflecteix com operen realment els CFO: no es pot optimitzar el creixement si t'has quedat sense diners. L'anonimització de les dates del calendari i de les identitats de les empreses evita que els models apliquin patrons basats en resultats històrics memoritzats, la qual cosa és una millora metodològica genuïna respecte als rànquings financers que utilitzen tiquets i dates reals.
La taxonomia de modes de fallada que els autors identifiquen a través d'estudis de cas és creïble: GPT-5.4 aconsegueix una taxa d'èxit del 99,1% (el que significa que actua en gairebé cada pas temporal sense fer res), mentre que Qwen3.5-397B confon l'anàlisi amb l'acció. Aquests són modes de fallada de comportament diferents amb remeis diferents.
El que em convenç menys: l'entorn macro estocàstic utilitza soroll gaussià per aproximar els xocs del mercat, cosa que els mateixos autors reconeixen que no pot replicar esdeveniments de tipus "cisne negre" o la irracionalitat humana. El pressupost de 20 crides per mes també és una mica arbitrari; els CFO reals no s'enfronten a aquest tipus de restricció de taxa de consultes sobre la seva pròpia memòria, la qual cosa planteja la qüestió de si el rànquing mesura el judici financer a llarg termini o alguna cosa més propera al RAG sota pressió de recursos. L'estructura d'agent únic és una altra limitació explícita que els autors anomenen: els CFO reals operen dins d'hierarquies de controladors, analistes de planificació i anàlisi financera (FP&A) i equips de tresoreria, i l'article no intenta simular-ho.
La troballa que la mida del model no prediu la supervivència és sorprenent i probablement genuïna, però el mecanisme no s'explica bé. Els autors ho assenyalen sense aprofundir en si es tracta d'una fallada en el seguiment d'instruccions, en la coherència del context llarg o en la calibració del risc.
Per què això és important per a la IA en finances
L'acció de tancament de llibres a EnterpriseArena és essencialment l'asserció balance de Beancount i el pas de conciliació del llibre major — el moment en què l'agent es compromet amb una visió verídica de l'estat financer abans d'actuar. La troballa que els LLM ometen això el 80% de les vegades es trasllada directament al problema de seguretat de l'escriptura (write-back): un agent que evita la conciliació abans d'actuar és un agent que actua sobre un estat obsolet o al·lucinat. Per a l'automatització de Beancount, això suggereix que el pas de conciliació hauria de ser obligatori i verificable — no opcional — en qualsevol bucle d'agent.
L'horitzó de 132 mesos també és directament anàleg a la gestió d'un llibre major de diversos anys. La troballa que la consciència situacional sostinguda es degrada amb el temps és la mateixa degradació que esperaríem en un agent de Beancount que gestionés cinc anys d'historial de transaccions: fins i tot si l'agent té totes les dades en el context, pot ser que no hi actuï de manera coherent al mes 60. Això suggereix que els punts de control de conciliació forçats periòdicament — no només les consultes reactives — són necessaris en sessions d'agents Beancount de llarga durada.
La trampa de la recollida d'informació en què cau Qwen3.5-397B és una advertència de disseny útil: els agents equipats amb moltes eines de recuperació poden preferir la recuperació al compromís, especialment quan el cost d'una acció incorrecta (corrupció del llibre major) és alt. Les restriccions de pressupost d'eines del tipus que utilitza EnterpriseArena podrien ajudar a imposar una disciplina d'acció en els agents d'escriptura de Beancount.
Què llegir a continuació
- EcoGym (arXiv:2602.09514) — rànquing d'economia de llarg horitzó complementari en entorns de venda automàtica, freelance i operacions en més de 1.000 passos; cap model domina en els tres, cosa que suggereix que els modes de fallada a EnterpriseArena no són idiosincràtics d'un sol disseny de rànquing.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — reformula el disseny del flux de treball com una cerca en l'espai de codi amb MCTS i retroalimentació de LLM; si EnterpriseArena demostra que els comportaments d'agents dissenyats manualment fallen, AFlow és el següent pas obvi per descobrir millors conductes de manera automàtica.
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — el marc fonamental d'entrenament i avaluació de l'ús d'eines; comprendre com s'aprèn el comportament de crida a eines a ToolLLM aclareix si la fallada d'evitació d'accions a EnterpriseArena és un problema d'entrenament o un problema de "prompting".
