پرش به محتوای اصلی

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

این مقاله به این دلیل در لیست مطالعه من قرار گرفت که مستقیماً موج کارهای پیش‌بینی سری‌های زمانی مبتنی بر LLM در سال‌های ۲۰۲۳-۲۰۲۴ را به چالش می‌کشد. از آنجایی که Bean Labs به پیش‌بینی موجودی حساب‌ها و جریان‌های نقدی از دفتر کل‌های Beancount فکر می‌کند، مسئله استفاده از LLMهای عمومی یا مدل‌های عددی تخصصی، یک موضوع آکادمیک محض نیست. نتیجه مقاله منتخب NeurIPS 2024 از Tan و همکاران، مانند یک سطل آب سرد بر این موج است.

مقاله

2026-05-23-are-llms-useful-for-time-series-forecasting

مقاله "آیا مدل‌های زبانی واقعاً برای پیش‌بینی سری‌های زمانی مفید هستند؟" نوشته Mingtian Tan و همکاران (arXiv:2406.16964, NeurIPS 2024 Spotlight) سه روش محبوب پیش‌بینی مبتنی بر LLM را مورد واکاوی (Ablation) قرار می‌دهد: OneFitsAll (مدل GPT-2 با مکانیزم توجه منجمد و تکه‌گذاری)، Time-LLM (مدل LLaMA با بازبرنامه‌ریزی تکه‌ها) و CALF (مدل GPT-2 با آداپتورهای LoRA و تراز چندوجهی). پرسش این است که آیا حذف یا جایگزینی مولفه LLM باعث کاهش عملکرد می‌شود یا خیر. در میان ۱۳ معیار ارزیابی، پاسخ تقریباً همیشه «نه» است - و اغلب نسخه‌های بدون LLM بهتر عمل می‌کنند.

ایده‌های کلیدی

  • مدل‌های بدون LLM در ۲۶ مورد از ۲۶ معیار در ۱۳ مجموعه داده از Time-LLM، در ۲۲ از ۲۶ مورد از CALF و در ۱۹ از ۲۶ مورد از OneFitsAll پیشی گرفتند؛ در واقع LLM بیشتر از اینکه کمک کند، مانع عملکرد شده است.
  • مدل Time-LLM دارای ۶,۶۴۲ میلیون پارامتر است و به ۳,۰۰۳ دقیقه آموزش روی مجموعه داده Weather نیاز دارد؛ در حالی که یک نسخه اصلاح‌شده (Ablation) فقط با مکانیزم توجه و ۰.۲۴۵ میلیون پارامتر، در ۲.۱۷ دقیقه آموزش می‌بیند - یعنی حدود ۱۳۸۳ برابر افزایش سرعت با دقت برابر یا بهتر.
  • مدل‌های LLM با مقداردهی اولیه تصادفی در ۸ مورد از ۱۱ مقایسه مجموعه داده‌ها از مدل‌های پیش‌آموزش‌دیده بهتر عمل کردند، که نشان می‌دهد وزن‌های پیش‌آموزش‌دیده روی متن، در مجموع تاثیر منفی بر جای می‌گذارند.
  • در سناریوهای یادگیری با داده‌های اندک (۱۰٪ داده‌های آموزشی)، Time-LLM و نسخه بدون LLM هر کدام در ۸ مورد از ۱۶ مورد برنده شدند - که از نظر آماری غیرقابل تشخیص است و استدلال «چند-شات» (Few-shot) را که معمولاً برای توجیه استفاده از LLM به کار می‌رود، رد می‌کند.
  • برهم زدن ترتیب کل توالی‌های سری زمانی باعث تضعیف مشابه هر دو مدل مبتنی بر LLM و مدل‌های مبتنی بر توجه (Attention-only) می‌شود، که نشان می‌دهد هیچ‌یک از این معماری‌ها به طور قابل اعتمادی ساختار زمانی متوالی را ثبت نمی‌کنند.
  • یک مدل پایه ساده PAttn (تکه‌گذاری به علاوه یک لایه توجه واحد) در تمام مجموعه‌داده‌ها با روش‌های کامل LLM برابری می‌کند، در حالی که در زمان استنتاج چندین مرتبه ارزان‌تر است.

چه چیزی پابرجاست و چه چیزی نه

طراحی آزمایش حذف (Ablation) اصولی است: نویسندگان فقط مولفه LLM را جایگزین می‌کنند در حالی که همه چیز دیگر (تکه‌گذاری، نرمال‌سازی، سرها) را ثابت نگه می‌دارند، بنابراین مقایسه شفاف است. کدها عمومی هستند. یافته‌های مربوط به محاسبات به تنهایی - ۱۳۸۳ برابر سرعت بیشتر بدون افت دقت - برای هر مورد استفاده در محیط عملیاتی به سختی قابل انکار است.

آنچه مقاله بی‌پاسخ می‌گذارد این است که چرا LLMها در کمک کردن شکست می‌خورند. آزمایش برهم‌زدن ترتیب (Shuffling) نشان می‌دهد که مدل‌ها نمی‌توانند سری‌های دارای ترتیب زمانی را از سری‌های درهم‌ریخته تشخیص دهند - اما این نقیصه برای مدل‌های بدون LLM نیز صادق است، نه فقط برای LLMها. این شکست ممکن است ناشی از ویژگی عمیق‌تری در نحوه پردازش سری‌های زمانی توسط ترنسفورمرهای مبتنی بر تکه (Patch-based) باشد تا صرفاً نقص مدل زبانی. نویسندگان به این موضوع اشاره می‌کنند اما آن را دنبال نمی‌کنند.

محدوده تحقیق نیز محدود است. هر سه روش از LLMهای منجمد یا با انطباق اندک سال‌های ۲۰۲۲-۲۰۲۳ (GPT-2, LLaMA-7B) استفاده می‌کنند. مدل‌های ساخته شده مخصوص سری‌های زمانی - مانند Chronos و TimesFM - داده‌های عددی را به شکل متفاوتی توکنایز می‌کنند و در این تحقیق پوشش داده نشده‌اند. یک منتقد می‌تواند به درستی استدلال کند که این نقد بر یک الگوی طراحی خاص (تغییر کاربری معماری‌های NLP بدون اصلاح) وارد است، نه بر کل LLMها برای داده‌های عددی.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

برای وظایف پیش‌بینی در Beancount - پیش‌بینی موجودی ماه آینده، تخمین بدهی مالیاتی سالانه، شناسایی شکاف‌های جریان نقدی - این مقاله قویاً به سمت مدل‌های عددی سبک و تخصصی سوق می‌دهد. شکاف محاسباتی تئوری نیست: عاملی که پیش‌بینی‌های دوره‌ای را روی یک دفتر کل شخصی اجرا می‌کند، نمی‌تواند هزینه‌های سربار استنتاج Time-LLM را متحمل شود.

یک پیامد مهم‌تر نیز وجود دارد. یافته مربوط به ساختار متوالی نشان می‌دهد که هر عاملی که با ورودی‌های دفتر کل مانند توکن برخورد کرده و انتظار دارد مدل تنها از طریق متن در مورد ترتیب زمانی استدلال کند، بر پایه‌ای سست بنا شده است. اگر مدل نتواند تفاوت بین داده‌های درهم‌ریخته و مرتب را تشخیص دهد، تطبیق الگوی زمانی باید به صراحت مهندسی شود - از طریق کدگذاری موقعیتی (Positional Encoding)، تجزیه روند-فصلی (Trend-seasonal Decomposition) یا یک معماری تخصصی - و نباید تصور شود که از پیش‌آموزش مدل پدیدار می‌گردد.

خطر اصلی در تعمیم بیش از حد است. نقد Tan و همکاران صرفاً در مورد برون‌یابی عددی است. LLMها هنوز زمانی که کار شامل زبان طبیعی است ارزش واقعی دارند - مانند توضیح ناهنجاری‌ها، پاسخ به این سوال که «چرا هزینه‌های خواربار من در ماه مارس افزایش یافت» یا حسابرسی یادداشت‌های توصیفی در یک دفتر کل. اشتباه بزرگ، خلط مبحث بین «LLMها نمی‌توانند سری‌های زمانی را برون‌یابی کنند» با «LLMها نمی‌توانند در مورد امور مالی استدلال کنند» است. این‌ها ادعاهای متفاوتی هستند و Bean Labs به هر دو قابلیت نیاز دارد.

مطالب پیشنهادی برای مطالعه بیشتر

  • TimesFM: "مدل پایه فقط رمزگشا برای پیش‌بینی سری‌های زمانی" (Das et al., ICML 2024, arXiv:2310.10688) — مدل ۲۰۰ میلیون پارامتری گوگل که روی ۱۰۰ میلیارد نقطه زمانی واقعی پیش‌آموزش دیده است؛ این مدل به جای تغییر کاربری از NLP، مخصوص پیش‌بینی ساخته شده و آزمونی مستقیم برای این است که آیا مشکل از LLMهاست یا الگوی تغییر کاربری.
  • Chronos: "یادگیری زبان سری‌های زمانی" (Ansari et al., TMLR 2024, arXiv:2403.07815) — رویکرد آمازون برای توکنایز کردن مقادیر عددی در یک واژگان گسسته و آموزش مدل‌های مبتنی بر T5 از ابتدا روی سری‌های زمانی؛ این مدل از نظر روحیه به PatchTST نزدیک‌تر است تا پیش‌بینی‌کننده‌های مبتنی بر GPT و به نتایج صفر-شات (Zero-shot) قدرتمندی در ۴۲ معیار دست یافته است.
  • PatchTST: "یک سری زمانی ارزش ۶۴ کلمه را دارد" (Nie et al., ICLR 2023, arXiv:2211.14730) — طراحی مبتنی بر تکه‌گذاری و استقلال کانال که زیربنای اکثر بسته‌های LLM بررسی شده در این مقاله است؛ درک آن روشن می‌کند که دقیقاً کدام جزء در OneFitsAll و Time-LLM کار اصلی را انجام می‌دهد.