مدلهای زبانی بزرگ برای پیشبینی سریهای زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی
این مقاله به این دلیل در لیست مطالعه من قرار گرفت که مستقیماً موج کارهای پیشبینی سریهای زمانی مبتنی بر LLM در سالهای ۲۰۲۳-۲۰۲۴ را به چالش میکشد. از آنجایی که Bean Labs به پیشبینی موجودی حسابها و جریانهای نقدی از دفتر کلهای Beancount فکر میکند، مسئله استفاده از LLMهای عمومی یا مدلهای عددی تخصصی، یک موضوع آکادمیک محض نیست. نتیجه مقاله منتخب NeurIPS 2024 از Tan و همکاران، مانند یک سطل آب سرد بر این موج است.
مقاله
مقاله "آیا مدلهای زبانی واقعاً برای پیشبینی سریهای زمانی مفید هستند؟" نوشته Mingtian Tan و همکاران (arXiv:2406.16964, NeurIPS 2024 Spotlight) سه روش محبوب پیشبینی مبتنی بر LLM را مورد واکاوی (Ablation) قرار میدهد: OneFitsAll (مدل GPT-2 با مکانیزم توجه منجمد و تکهگذاری)، Time-LLM (مدل LLaMA با بازبرنامهریزی تکهها) و CALF (مدل GPT-2 با آداپتورهای LoRA و تراز چندوجهی). پرسش این است که آیا حذف یا جایگزینی مولفه LLM باعث کاهش عملکرد میشود یا خیر. در میان ۱۳ معیار ارزیابی، پاسخ تقریباً همیشه «نه» است - و اغلب نسخههای بدون LLM بهتر عمل میکنند.
ایدههای کلیدی
- مدلهای بدون LLM در ۲۶ مورد از ۲۶ معیار در ۱۳ مجموعه داده از Time-LLM، در ۲۲ از ۲۶ مورد از CALF و در ۱۹ از ۲۶ مورد از OneFitsAll پیشی گرفتند؛ در واقع LLM بیشتر از اینکه کمک کند، مانع عملکرد شده است.
- مدل Time-LLM دارای ۶,۶۴۲ میلیون پارامتر است و به ۳,۰۰۳ دقیقه آموزش روی مجموعه داده Weather نیاز دارد؛ در حالی که یک نسخه اصلاحشده (Ablation) فقط با مکانیزم توجه و ۰.۲۴۵ میلیون پارامتر، در ۲.۱۷ دقیقه آموزش میبیند - یعنی حدود ۱۳۸۳ برابر افزایش سرعت با دقت برابر یا بهتر.
- مدلهای LLM با مقداردهی اولیه تصادفی در ۸ مورد از ۱۱ مقایسه مجموعه دادهها از مدلهای پیشآموزشدیده بهتر عمل کردند، که نشان میدهد وزنهای پیشآموزشدیده روی متن، در مجموع تاثیر منفی بر جای میگذارند.
- در سناریوهای یادگیری با دادههای اندک (۱۰٪ دادههای آموزشی)، Time-LLM و نسخه بدون LLM هر کدام در ۸ مورد از ۱۶ مورد برنده شدند - که از نظر آماری غیرقابل تشخیص است و استدلال «چند-شات» (Few-shot) را که معمولاً برای توجیه استفاده از LLM به کار میرود، رد میکند.
- برهم زدن ترتیب کل توالیهای سری زمانی باعث تضعیف مشابه هر دو مدل مبتنی بر LLM و مدلهای مبتنی بر توجه (Attention-only) میشود، که نشان میدهد هیچیک از این معماریها به طور قابل اعتمادی ساختار زمانی متوالی را ثبت نمیکنند.
- یک مدل پایه ساده PAttn (تکهگذاری به علاوه یک لایه توجه واحد) در تمام مجموعهدادهها با روشهای کامل LLM برابری میکند، در حالی که در زمان استنتاج چندین مرتبه ارزانتر است.