Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв
EnterpriseArena проводит 11 LLM через 132-месячную симуляцию финансового директора, отслеживая выживаемость, итоговую оценку и частоту закрытия отчетности. Только Qwen3.5-9B выживает в 80% запусков; показатели GPT-5.4 и DeepSeek-V3.1 составили 0%. Эксперты-люди достигают 100% выживаемости при итоговой стоимости в 5 раз выше. Критическое узкое место — LLM пропускают сверку реестров в 80% случаев, действуя на основе устаревшего финансового состояния.
