Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст
EnterpriseArena тества 11 големи езикови модела (LLM) чрез 132-месечна симулация на финансов директор, проследявайки процента на оцеляване, крайната оценка и степента на приключване на книгите. Само Qwen3.5-9B оцелява в 80% от опитите; GPT-5.4 и DeepSeek-V3.1 достигат 0%. Експертите хора постигат 100% оцеляване при 5 пъти по-висока крайна стойност. Критичното тясно място - LLM пропускат равнението на главната книга в 80% от случаите, действайки въз основа на остаряло финансово състояние.
