LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ
Този доклад се появи в списъка ми за четене, защото директно оспорва вълната от разработки за прогнозиране на времеви редове, базирани на LLM, от 2023–2024 г. Докато Bean Labs обмисля прогнозирането на баланси по сметки и парични потоци от главни книги на Beancount, въпросът дали да се използват общи LLM или тясно специализирани числени модели не е само академичен. Резултатът на Тан и сътр. от NeurIPS 2024 Spotlight е като кофа студена вода.
Докладът
„Полезни ли са всъщност езиковите модели за прогнозиране на времеви редове?“ (Are Language Models Actually Useful for Time Series Forecasting?) от Мингтиан Тан, Майк Мерил, Винаяк Гупта, Тим Алтхоф и Томас Хартвигсен (arXiv:2406.16964, NeurIPS 2024 Spotlight) извършва аблация на три популярни метода за прогнозиране, базирани на LLM: OneFitsAll (GPT-2 със замразено внимание и пачване), Time-LLM (LLaMA с препрограмиране на пачове) и CALF (GPT-2 с LoRA адаптери и крос-модално съгласуване). Въпросът е дали премахването или замяната на LLM компонента влошава производителността. В 13 бенчмарка отговорът почти винаги е „не“ — и често моделите след аблация са по-добри.
Ключови идеи
- Моделите след аблация превъзхождат Time-LLM в 26 от 26 случая на метрики в 13 набора от данни, CALF в 22 от 26 и OneFitsAll в 19 от 26 — LLM по-често пречи, отколкото помага.
- Time-LLM има 6 642 милиона параметри и изисква 3 003 минути за обучение върху на бора от данни Weather; аблация само с внимание с 0,245 милиона параметъра се обучава за 2,17 минути — приблизително 1 383 пъти ускорение при еднаква или по-добра точност.
- Случайно инициализираните LLM превъзхождат предварително обучените в 8 от 11 сравнения на набори от данни, което означава, че теглата, обучени върху текст, допринасят негативно в общия баланс.
- В few-shot сценарии (10% данни за обучение), Time-LLM и аблацията без LLM печелят в по 8 от 16 случая — статистически неразличими, което опровергава аргумента за few-shot обучението, често използван за оправдаване на включването на LLM.
- Разбъркването на цели последователности от времеви редове влошава както базираните на LLM модели, така и тези само с внимание по подобен начин, което предполага, че нито една от архитектурите не улавя надеждно последователната времева структура.
- Базов модел PAttn (пачване плюс един слой внимание) съответства на пълните LLM методи в различните набори от данни, докато е с порядъци по-евтин при инференция.
Какво се потвърждава и какво не
Дизайнът на аблацията е принципен: авторите заменят само LLM компонента, като запазват всичко останало (пачване, нормализация, глави) фиксирано, така че сравнението е чисто. Кодът е публичен. Само констатацията за изчислителните ресурси — 1383 пъти ускорение без загуба на точност — е трудно оспорим аргумент за всеки производствен случай.
Това, което докладът оставя отворено, е защо LLM не успяват да помогнат. Експериментът с разбъркването показва, че моделите не могат да разграничат времево подредени от разбъркани поредици — но тази патология важи и за аблациите, а не само за LLM. Провалът може да е по-дълбоко свойство на това как трансформърите, базирани на пачове, обработват времеви редове, а не конкретно дефект на езиковия модел. Авторите загатва за това, но не го изследват по-подробно.
Обхватът също е ограничен. И трите метода използват замразени или леко адаптирани LLM от 2022–2023 г. (GPT-2, LLaMA-7B). Модели, специално създадени за времеви редове — Chronos, TimesFM — токенизират числовите данни по различен начин и не са обхванати. Скептикът може основателно да твърди, че критиката засяга конкретен модел на проектиране (пренасочване на NLP архитектури без модификация), а не LLM за числови данни като цяло.
Защо това е важно за финансовия ИИ
За задачите за прогнозиране в Beancount — предвиждане на баланса за следващия месец, оценка на годишните данъчни задължения, сигнализиране за пропуски в паричния поток — този доклад тласка решително към леки, тясно специализирани числови модели. Изчислителната разлика не е теоретична: агент, изпълняващ периодични прогнози върху лична главна книга, не може да си позволи разходите за инференция на Time-LLM.
Има и по-остро последствие. Констатацията за последователната структура предполага, че всеки агент, който третира записите в главната книга като токени и очаква моделъ т да разсъждава за времевата подредба само от контекста, е на несигурна почва. Ако моделът не може да различи разбъркано от подредено, съпоставянето на времеви модели трябва да бъде изрично проектирано — чрез позиционно кодиране, тренд-сезонна декомпозиция или тясно специализирана архитектура — а не да се предполага, че ще се появи естествено от предварителното обучение.
Рискът е в прекомерното обобщаване. Критиката на Тан и сътр. е тясно насочена към числената екстраполация. LLM все още носят истинска стойност, когато задачата включва естествен език — обяснение на аномалии, отговор на въпроса „защо разходите ми за хранителни стоки скочиха през март“, одит на описателните бележки в главната книга. Грешката е в смесването на „LLM не могат да екстраполират времеви редове“ с „LLM не могат да разсъждават за финанси“. Това са различни твърдения и Bean Labs се нуждае и от двете способности.
Какво да прочетете след това
- TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) — моделът на Google с 200 милиона параметъра, предварително обучен върху 100 милиарда реални времеви точки; специално създаден за прогнозиране, а не преработен от NLP, и директен тест дали проблемът е в LLM или в модела на пренасочване.
- Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) — подходът на Amazon за токенизиране на числови стойности в дискретен речник и обучение на T5-базирани модели от нулата върху времеви редове; по-близък по дух до PatchTST, отколкото до GPT-базирани прогнозисти, постига силни zero-shot резултати в 42 бенчмарка.
- PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) — дизайнът с пачване и независимост на каналите, който стои в основата на повечето обвивки на LLM, анализирани в този доклад; разбирането му изяснява точно кой компонент върши реалната работа в OneFitsAll и Time-LLM.
