Doorgaan naar hoofdinhoud

LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI

· 5 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Dit artikel verscheen op mijn leeslijst omdat het direct de golf van op LLM gebaseerde tijdreeksvoorspellingen uit 2023–2024 uitdaagt. Nu Bean Labs nadenkt over het voorspellen van rekeningsaldi en cashflows uit Beancount-grootboeken, is de vraag of we algemene LLM's of speciaal gebouwde numerieke modellen moeten gebruiken niet louter academisch. Het resultaat van de NeurIPS 2024 Spotlight van Tan et al. is als een emmer koud water.

Het artikel

2026-05-23-are-llms-useful-for-time-series-forecasting

"Are Language Models Actually Useful for Time Series Forecasting?" door Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff en Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) voert ablaties uit op drie populaire op LLM gebaseerde voorspellingsmethoden: OneFitsAll (GPT-2 met bevroren attention en patching), Time-LLM (LLaMA met patch-reprogrammering) en CALF (GPT-2 met LoRA-adapters en cross-modale uitlijning). De vraag is of het verwijderen of vervangen van de LLM-component de prestaties verslechtert. Over 13 benchmarks is het antwoord bijna altijd nee — en vaak zijn de ablaties zelfs beter.

Belangrijkste inzichten

  • Ablaties presteren beter dan Time-LLM in 26 van de 26 metrische gevallen over 13 datasets, CALF in 22/26 en OneFitsAll in 19/26 — de LLM is vaker een rem dan een hulp.
  • Time-LLM heeft 6.642M parameters en vereist 3.003 trainingsminuten op de Weather-dataset; een ablatie met slechts 0,245M parameters en alleen attention traint in 2,17 minuten — ongeveer een 1.383× versnelling met gelijke of betere nauwkeurigheid.
  • Willekeurig geïnitialiseerde LLM's presteren beter dan vooraf getrainde modellen in 8 van de 11 datasetvergelijkingen, wat betekent dat de op tekst getrainde gewichten per saldo negatief bijdragen.
  • In few-shot instellingen (10% trainingsdata) winnen Time-LLM en de ablatie zonder LLM elk in 8 van de 16 gevallen — statistisch ononderscheidbaar, wat het few-shot argument weerlegt dat vaak wordt gebruikt om LLM-gebruik te rechtvaardigen.
  • Het husselen van volledige tijdreekssequenties verslechtert zowel de op LLM gebaseerde als de op attention gebaseerde modellen vergelijkbaar, wat suggereert dat geen van beide architecturen op betrouwbare wijze sequentiële temporele structuren vastlegt.
  • Een eenvoudige PAttn-baseline (patching plus een enkele attention-laag) komt overeen met volledige LLM-methoden over datasets, terwijl het vele malen goedkoper is bij inferentie.

Wat standhoudt — en wat niet

Het ontwerp van de ablatie is principieel: de auteurs vervangen alleen de LLM-component terwijl ze al het andere (patching, normalisatie, heads) gelijk houden, waardoor de vergelijking zuiver is. De code is openbaar. De bevinding over rekenkracht alleen al — 1.383× versnelling zonder verlies van nauwkeurigheid — is moeilijk te negeren voor elk productiegebruik.

Wat het artikel openlaat, is waarom LLM's niet helpen. Het experiment met husselen laat zien dat modellen geen onderscheid kunnen maken tussen temporeel geordende en door elkaar gehusselde reeksen — maar deze pathologie geldt ook voor de ablaties, niet alleen voor de LLM's. Het falen zou een diepere eigenschap kunnen zijn van hoe op patches gebaseerde transformers tijdreeksen verwerken, in plaats van specifiek een fout in het taalmodel. De auteurs hinten hierop, maar werken het niet verder uit.

De reikwijdte is ook begrensd. Alle drie de methoden gebruiken bevroren of licht aangepaste LLM's uit 2022–2023 (GPT-2, LLaMA-7B). Modellen die speciaal zijn gebouwd voor tijdreeksen — Chronos, TimesFM — tokeniseren numerieke gegevens anders en vallen hier niet onder. Een scepticus kan redelijkerwijs aanvoeren dat de kritiek gericht is op een specifiek ontwerppatroon (het hergebruiken van NLP-architecturen zonder wijziging) in plaats van op LLM's voor numerieke gegevens in het algemeen.

Waarom dit belangrijk is voor finance AI

Voor Beancount-voorspellingstaken — het voorspellen van het saldo van volgende maand, het inschatten van de jaarlijkse belastingplicht, het signaleren van tekorten in de cashflow — stuurt dit artikel resoluut aan op lichtgewicht, speciaal gebouwde numerieke modellen. Het gat in rekenkracht is niet theoretisch: een agent die rollende voorspellingen doet over een persoonlijk grootboek kan zich de overhead van de inferentie van Time-LLM niet veroorloven.

Er is ook een scherpere implicatie. De bevinding over sequentiële structuur suggereert dat elke agent die grootboekmutaties als tokens behandelt en verwacht dat het model redeneert over de temporele volgorde op basis van alleen de context, op wankele grond staat. Als het model het verschil niet kan zien tussen gehusseld en geordend, moet temporele patroonherkenning expliciet worden ontworpen — via positionele codering, trend-seizoensgebonden decompositie of een speciaal gebouwde architectuur — en niet worden verondersteld voort te komen uit pretraining.

Het risico is overgeneralisatie. De kritiek van Tan et al. gaat specifiek over numerieke extrapolatie. LLM's bieden nog steeds echte waarde wanneer de taak natuurlijke taal omvat — het verklaren van anomalieën, het beantwoorden van "waarom stegen mijn uitgaven aan boodschappen in maart," het auditen van narratieve notities in een grootboek. De fout is het verwarren van "LLM's kunnen geen tijdreeksen extrapoleren" met "LLM's kunnen niet redeneren over financiën." Dit zijn verschillende beweringen, en Bean Labs heeft beide capaciteiten nodig.

Wat nu te lezen

  • TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) — Google's model met 200 miljoen parameters, vooraf getraind op 100 miljard echte tijdspunten; speciaal gebouwd voor voorspellingen in plaats van hergebruikt uit NLP, en een directe test of het probleem de LLM's zijn of het patroon van hergebruik.
  • Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) — Amazon's aanpak om numerieke waarden te tokeniseren in een discreet vocabulaire en op T5 gebaseerde modellen vanaf nul te trainen op tijdreeksen; qua geest nauwer verwant aan PatchTST dan aan op GPT gebaseerde voorspellers en behaalt sterke zero-shot resultaten op 42 benchmarks.
  • PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) — het ontwerp van patching + kanaal-onafhankelijkheid dat ten grondslag ligt aan de meeste LLM-wrappers die in dit artikel worden geanalyseerd; het begrijpen hiervan verduidelijkt precies welke component het echte werk doet in OneFitsAll en Time-LLM.