Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna
O EnterpriseArena submete 11 LLMs a uma simulação de CFO de 132 meses, monitorando sobrevivência, avaliação terminal e taxas de fechamento de livros. Apenas o Qwen3.5-9B sobrevive a 80% das execuções; GPT-5.4 e DeepSeek-V3.1 chegam a 0%. Especialistas humanos alcançam 100% de sobrevivência com 5x o valor terminal. O gargalo crítico é que as LLMs ignoram a reconciliação do razão 80% das vezes, agindo com base em estados financeiros obsoletos.
