LLM nie sú užitočné pre predpovedanie časových radov: Čo NeurIPS 2024 znamená pre finančnú AI
Tento článok sa objavil v mojom zozname literatúry, pretože priamo spochybňuje vlnu prác o predpovedaní časových radov založených na LLM z rokov 2023–2024. Keďže Bean Labs uvažuje o predpovedaní zostatkov na účtoch a peňažných tokov z účtovných kníh Beancount, otázka, či použiť všeobecné LLM alebo účelovo vytvorené numerické modely, nie je len akademická. Výsledok štúdie Tan et al. z NeurIPS 2024 Spotlight je ako vedro studenej vody.
O článku
Článok „Are Language Models Actually Useful for Time Series Forecasting?“ od Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff a Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) vykonáva abláciu troch populárnych metód predpovedania založených na LLM: OneFitsAll (GPT-2 so zmrazenou pozornosťou a patchingom), Time-LLM (LLaMA s preprogramovaním patchov) a CALF (GPT-2 s LoRA adaptérmi a krížovo-modálnym zarovnaním). Otázkou je, či odstránenie alebo nahradenie komponentu LLM zhoršuje výkon. V 13 benchmarkoch je odpoveď takmer vždy nie — a verzie s abláciou sú často lepšie.
Kľúčové myšlienky
- Verzie s abláciou prekonávajú Time-LLM v 26 z 26 metrík v rámci 13 dátových sád, CALF v 22 z 26 a OneFitsAll v 19 z 26 — LLM je častejšie záťažou než pomocou.
- Time-LLM má 6 642 miliónov parametrov a vyžaduje 3 003 minút trénovania na dátovej sade Weather; ablačná verzia s 0,245 miliónmi parametrov (iba s vrstvou pozornosti) sa natrénuje za 2,17 minúty — čo predstavuje približne 1 383-násobné zrýchlenie pri rovnakej alebo lepšej presnosti.
- Náhodne inicializované LLM prekonávajú tie predtrénované v 8 z 11 porovnaní dátových sád, čo znamená, že váhy predtrénované na texte prispievajú k celkovému výsledku negatívne.
- V nastaveniach few-shot (10 % trénovacích dát) vyhráva Time-LLM a ablácia bez LLM v 8 zo 16 prípadov každý — sú štatisticky nerozlíšiteľné, čím sa vyvracia argument o few-shot schopnostiach bežne používaný na ospravedlnenie zahrnutia LLM.
- Premiešanie celých sekvencií časových radov degraduje modely založené na LLM aj modely využívajúce len pozornosť porovnateľne, čo naznačuje, že ani jedna architektúra spoľahlivo nezachytáva sekvenčnú časovú štruktúru.
- Jednoduchý baseline PAttn (patching plus jedna vrstva pozornosti) sa vyrovná plným LLM metódam naprieč dátovými sadami, pričom je o poriadky lacnejší pri inferencii.
Čo obstojí — a čo nie
Dizajn ablácie je metodicky správny: autori nahrádzajú iba komponent LLM, pričom všetko ostatné (patching, normalizáciu, hlavy) ponechávajú nezmenené, takže porovnanie je čisté. Kód je verejne dostupný. Samotné zistenie o výpočtovej náročnosti — 1 383-násobné zrýchlenie bez straty presnosti — je v akomkoľvek produkčnom prostredí ťažké spochybniť.
Článok však necháva otvorenú otázku, prečo LLM nepomáhajú. Experiment s premiešaním ukazuje, že modely nedokážu rozlíšiť časovo usporiadané rady od poprehadzovaných — ale táto patológia platí aj pre ablačné verzie, nielen pre LLM. Zlyhanie môže byť hlbšou vlastnosťou toho, ako transformátory založené na patchoch spracovávajú časové rady, a nie konkrétne chybou jazykového modelu. Autori to naznačujú, ale ďalej nerozvíjajú.
Rozsah je tiež obmedzený. Všetky tri metódy používajú zmrazené alebo mierne upravené LLM z rokov 2022–2023 (GPT-2, LLaMA-7B). Modely vytvorené priamo pre časové rady — ako Chronos alebo TimesFM — tokenizujú numerické dáta inak a nie sú v štúdii zahrnuté. Skeptik môže oprávnene namietať, že kritika dopadá na konkrétny návrhový vzor (úprava NLP architektúr bez modifikácie) a nie na LLM pre numerické dáta všeobecne.
Prečo je to dôležité pre finančnú AI
Pre úlohy predpovedania v Beancount — predikciu zostatku na budúci mesiac, odhad ročnej daňovej povinnosti, identifikáciu medzier v peňažných tokoch — tento článok jednoznačne smeruje k ľahkým, účelovo vytvoreným numerickým modelom. Výpočtový rozdiel nie je teoretický: agent spúšťajúci priebežné predpovede nad osobnou účtovnou knihou si nemôže dovoliť režijné náklady inferencie Time-LLM.
Existuje aj hlbší dôsledok. Zistenie o sekvenčnej štruktúre naznačuje, že akýkoľvek agent, ktorý považuje záznamy v účtovnej knihe za tokeny a očakáva, že model bude o časovom usporiadaní uvažovať len na základe kontextu, stojí na neistých základoch. Ak model nevie rozoznať premiešané od usporiadaného, časové vzory musia byť navrhnuté explicitne — prostredníctvom pozičného kódovania, dekompozície trendov a sezónnosti alebo účelovej architektúry — a nie predpokladať, že sa objavia samé vďaka predtrénovaniu.
Rizikom je prílišné zovšeobecňovanie. Kritika Tan et al. sa úzko týka numerickej extrapolácie. LLM majú stále reálnu hodnotu tam, kde úloha zahŕňa prirodzený jazyk — vysvetľovanie anomálií, odpovedanie na otázku „prečo moje výdavky na potraviny v marci prudko vzrástli“, auditovanie naratívnych poznámok v účtovnej knihe. Chybou je spájať „LLM nedokážu extrapolovať časové rady“ s „LLM nedokážu uvažovať o financiách“. Sú to odlišné tvrdenia a Bean Labs potrebuje obe tieto schopnosti.
Čo si prečítať ďalej
- TimesFM: „A decoder-only foundation model for time-series forecasting“ (Das et al., ICML 2024, arXiv:2310.10688) — 200M model od Google predtrénovaný na 100 miliardách reálnych časových bodov; vytvorený priamo pre predpovedanie, nie adaptovaný z NLP, a priamy test toho, či je problémom LLM alebo vzor adaptácie.
- Chronos: „Learning the Language of Time Series“ (Ansari et al., TMLR 2024, arXiv:2403.07815) — prístup Amazonu, ktorý tokenizuje numerické hodnoty do diskrétneho slovníka a trénuje modely založené na T5 od nuly na časových radoch; duchom bližší k PatchTST než k predpovedačom založeným na GPT a dosahuje silné zero-shot výsledky v 42 benchmarkoch.
- PatchTST: „A Time Series is Worth 64 Words“ (Nie et al., ICLR 2023, arXiv:2211.14730) — dizajn založený na patchingu a nezávislosti kanálov, ktorý je základom väčšiny LLM wrapperov analyzovaných v tomto článku; jeho pochopenie objasňuje, ktorý komponent vykonáva skutočnú prácu v OneFitsAll a Time-LLM.
