Преминете към основното съдържание

LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Този доклад се появи в списъка ми за четене, защото директно оспорва вълната от разработки за прогнозиране на времеви редове, базирани на LLM, от 2023–2024 г. Докато Bean Labs обмисля прогнозирането на баланси по сметки и парични потоци от главни книги на Beancount, въпросът дали да се използват общи LLM или тясно специализирани числени модели не е само академичен. Резултатът на Тан и сътр. от NeurIPS 2024 Spotlight е като кофа студена вода.

Докладът

2026-05-23-are-llms-useful-for-time-series-forecasting

„Полезни ли са всъщност езиковите модели за прогнозиране на времеви редове?“ (Are Language Models Actually Useful for Time Series Forecasting?) от Мингтиан Тан, Майк Мерил, Винаяк Гупта, Тим Алтхоф и Томас Хартвигсен (arXiv:2406.16964, NeurIPS 2024 Spotlight) извършва аблация на три популярни метода за прогнозиране, базирани на LLM: OneFitsAll (GPT-2 със замразено внимание и пачване), Time-LLM (LLaMA с препрограмиране на пачове) и CALF (GPT-2 с LoRA адаптери и крос-модално съгласуване). Въпросът е дали премахването или замяната на LLM компонента влошава производителността. В 13 бенчмарка отговорът почти винаги е „не“ — и често моделите след аблация са по-добри.

Ключови идеи

  • Моделите след аблация превъзхождат Time-LLM в 26 от 26 случая на метрики в 13 набора от данни, CALF в 22 от 26 и OneFitsAll в 19 от 26 — LLM по-често пречи, отколкото помага.
  • Time-LLM има 6 642 милиона параметри и изисква 3 003 минути за обучение върху набора от данни Weather; аблация само с внимание с 0,245 милиона параметъра се обучава за 2,17 минути — приблизително 1 383 пъти ускорение при еднаква или по-добра точност.
  • Случайно инициализираните LLM превъзхождат предварително обучените в 8 от 11 сравнения на набори от данни, което означава, че теглата, обучени върху текст, допринасят негативно в общия баланс.
  • В few-shot сценарии (10% данни за обучение), Time-LLM и аблацията без LLM печелят в по 8 от 16 случая — статистически неразличими, което опровергава аргумента за few-shot обучението, често използван за оправдаване на включването на LLM.
  • Разбъркването на цели последователности от времеви редове влошава както базираните на LLM модели, така и тези само с внимание по подобен начин, което предполага, че нито една от архитектурите не улавя надеждно последователната времева структура.
  • Базов модел PAttn (пачване плюс един слой внимание) съответства на пълните LLM методи в различните набори от данни, докато е с порядъци по-евтин при инференция.

Какво се потвърждава и какво не

Дизайнът на аблацията е принципен: авторите заменят само LLM компонента, като запазват всичко останало (пачване, нормализация, глави) фиксирано, така че сравнението е чисто. Кодът е публичен. Само констатацията за изчислителните ресурси — 1383 пъти ускорение без загуба на точност — е трудно оспорим аргумент за всеки производствен случай.

Това, което докладът оставя отворено, е защо LLM не успяват да помогнат. Експериментът с разбъркването показва, че моделите не могат да разграничат времево подредени от разбъркани поредици — но тази патология важи и за аблациите, а не само за LLM. Провалът може да е по-дълбоко свойство на това как трансформърите, базирани на пачове, обработват времеви редове, а не конкретно дефект на езиковия модел. Авторите загатва за това, но не го изследват по-подробно.

Обхватът също е ограничен. И трите метода използват замразени или леко адаптирани LLM от 2022–2023 г. (GPT-2, LLaMA-7B). Модели, специално създадени за времеви редове — Chronos, TimesFM — токенизират числовите данни по различен начин и не са обхванати. Скептикът може основателно да твърди, че критиката засяга конкретен модел на проектиране (пренасочване на NLP архитектури без модификация), а не LLM за числови данни като цяло.

Защо това е важно за финансовия ИИ

За задачите за прогнозиране в Beancount — предвиждане на баланса за следващия месец, оценка на годишните данъчни задължения, сигнализиране за пропуски в паричния поток — този доклад тласка решително към леки, тясно специализирани числови модели. Изчислителната разлика не е теоретична: агент, изпълняващ периодични прогнози върху лична главна книга, не може да си позволи разходите за инференция на Time-LLM.

Има и по-остро последствие. Констатацията за последователната структура предполага, че всеки агент, който третира записите в главната книга като токени и очаква моделът да разсъждава за времевата подредба само от контекста, е на несигурна почва. Ако моделът не може да различи разбъркано от подредено, съпоставянето на времеви модели трябва да бъде изрично проектирано — чрез позиционно кодиране, тренд-сезонна декомпозиция или тясно специализирана архитектура — а не да се предполага, че ще се появи естествено от предварителното обучение.

Рискът е в прекомерното обобщаване. Критиката на Тан и сътр. е тясно насочена към числената екстраполация. LLM все още носят истинска стойност, когато задачата включва естествен език — обяснение на аномалии, отговор на въпроса „защо разходите ми за хранителни стоки скочиха през март“, одит на описателните бележки в главната книга. Грешката е в смесването на „LLM не могат да екстраполират времеви редове“ с „LLM не могат да разсъждават за финанси“. Това са различни твърдения и Bean Labs се нуждае и от двете способности.

Какво да прочетете след това

  • TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) — моделът на Google с 200 милиона параметъра, предварително обучен върху 100 милиарда реални времеви точки; специално създаден за прогнозиране, а не преработен от NLP, и директен тест дали проблемът е в LLM или в модела на пренасочване.
  • Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) — подходът на Amazon за токенизиране на числови стойности в дискретен речник и обучение на T5-базирани модели от нулата върху времеви редове; по-близък по дух до PatchTST, отколкото до GPT-базирани прогнозисти, постига силни zero-shot резултати в 42 бенчмарка.
  • PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) — дизайнът с пачване и независимост на каналите, който стои в основата на повечето обвивки на LLM, анализирани в този доклад; разбирането му изяснява точно кой компонент върши реалната работа в OneFitsAll и Time-LLM.