پرش به محتوای اصلی
Forecasting

همه چیز درباره Forecasting

4 مقاله
Financial forecasting and runway modelling with AI agents

آیا عامل‌های LLM می‌توانند مدیر مالی باشند؟ شبیه‌سازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش می‌کند

پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیه‌سازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار می‌دهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آن‌ها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در می‌برد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ می‌رسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست می‌یابند. گلوگاه اصلی: مدل‌های زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشم‌پوشی می‌کنند و بر اساس وضعیت مالی منقضی عمل می‌کنند.

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بک‌تست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش می‌کند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدل‌های تنظیم‌شده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیش‌بینی‌کننده عملکرد است.

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

FinBen: ارزیابی مقایسه‌ای مدل‌های زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری

FinBen ۱۵ مدل زبانی بزرگ را در ۳۶ مجموعه داده مالی در NeurIPS 2024 ارزیابی می‌کند و نشان می‌دهد که GPT-4 در پرسش و پاسخ عددی به تطابق دقیق ۰.۶۳ و در پیش‌بینی حرکت سهام به ۰.۵۴ می‌رسد که نزدیک به شانس است. در اینجا معنای این اعداد برای ساخت یک عامل حسابداری قابل اعتماد در دفترکل Beancount آورده شده است.