آیا عاملهای LLM میتوانند مدیر مالی باشند؟ شبیهسازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش میکند
پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیهسازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار میدهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آنها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در میبرد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ میرسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست مییابند. گلوگاه اصلی: مدلهای زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشمپوشی میکنند و بر اساس وضعیت مالی منقضی عمل میکنند.