LLMs sind für Zeitreihen-Vorhersagen nicht nützlich: Was die NeurIPS 2024 für Finanz-KI bedeutet
Dieses Paper landete auf meiner Leseliste, weil es die Welle von LLM-basierten Zeitreihen-Vorhersagearbeiten aus den Jahren 2023–2024 direkt infrage stellt. Da Bean Labs über die Vorhersage von Kontoständen und Cashflows aus Beancount-Hauptbüchern nachdenkt, ist die Frage, ob man allgemeine LLMs oder zweckgebundene numerische Modelle verwenden sollte, nicht nur akademischer Natur. Das NeurIPS 2024 Spotlight-Ergebnis von Tan et al. wirkt wie eine kalte Dusche.
Das Paper
"Are Language Models Actually Useful for Time Series Forecasting?" von Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff und Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) untersucht durch Ablationsstudien drei beliebte LLM-basierte Vorhersagemethoden: OneFitsAll (GPT-2 mit eingefrorener Attention und Patching), Time-LLM (LLaMA mit Patch-Reprogrammierung) und CALF (GPT-2 mit LoRA-Adaptern und cross-modaler Ausrichtung). Die Frage ist, ob das Entfernen oder Ersetzen der LLM-Komponente die Leistung verschlechtert. Über 13 Benchmarks hinweg lautet die Antwort fast immer: Nein – und oft sind die Ablationen sogar besser.
Kernideen
- Ablationen übertreffen Time-LLM in 26 von 26 Metrikfällen über 13 Datensätze hinweg, CALF in 22 von 26 und OneFitsAll in 19 von 26 – das LLM ist häufiger eine Last als eine Hilfe.
- Time-LLM hat 6.642 Mio. Parameter und benötigt 3.003 Trainingsminuten auf dem Weather-Datensatz; eine 0,245 Mio. Parameter starke Attention-only-Ablation trainiert in 2,17 Minuten – was einer etwa 1.383-fachen Beschleunigung bei gleicher oder besserer Genauigkeit entspricht.
- Zufällig initialisierte LLMs übertreffen vortrainierte Modelle in 8 von 11 Datensatzvergleichen, was bedeutet, dass die text-vortrainierten Gewichte unterm Strich einen negativen Beitrag leisten.
- In Few-Shot-Szenarien (10 % Trainingsdaten) gewinnen Time-LLM und die No-LLM-Ablation jeweils in 8 von 16 Fällen – statistisch nicht unterscheidbar, was das Few-Shot-Argument widerlegt, das üblicherweise zur Rechtfertigung des LLM-Einsatzes herangezogen wird.
- Das Mischen (Shuffling) ganzer Zeitreihensequenzen verschlechtert sowohl LLM-basierte als auch reine Attention-Modelle vergleichbar, was darauf hindeutet, dass keine der Architekturen die sequentielle zeitliche Struktur zuverlässig erfasst.
- Eine einfache PAttn-Baseline (Patching plus eine einzelne Attention-Schicht) erreicht die Ergebnisse vollständiger LLM-Methoden über alle Datensätze hinweg, während sie bei der Inferenz um Größenordnungen günstiger ist.
Was Bestand hat – und was nicht
Das Ablationsdesign ist fundiert: Die Autoren ersetzen nur die LLM-Komponente, während sie alles andere (Patching, Normalisierung, Heads) beibehalten, sodass der Vergleich sauber ist. Der Code ist öffentlich zugänglich. Allein das Rechenaufwand-Ergebnis – 1.383-fache Beschleunigung ohne Genauigkeitsverlust – ist ein Argument, das für jeden Produktionseinsatz schwer zu entkräften ist.
Was das Paper offen lässt, ist die Frage, warum LLMs nicht helfen. Das Shuffling-Experiment zeigt, dass Modelle zeitlich geordnete nicht von verwürfelten Reihen unterscheiden können – aber diese Pathologie gilt auch für die Ablationen, nicht nur für die LLMs. Das Scheitern könnte eine tiefer liegende Eigenschaft der Art und Weise sein, wie Patch-basierte Transformer Zeitreihen verarbeiten, und weniger ein spezifischer Fehler des Sprachmodells. Die Autoren deuten dies an, verfolgen es aber nicht weiter.
Der Umfang ist ebenfalls begrenzt. Alle drei Methoden verwenden eingefrorene oder leicht angepasste LLMs aus den Jahren 2022–2023 (GPT-2, LLaMA-7B). Modelle, die speziell für Zeitreihen entwickelt wurden – wie Chronos oder TimesFM –, tokenisieren numerische Daten anders und werden nicht abgedeckt. Ein Skeptiker kann berechtigterweise argumentieren, dass die Kritik ein spezifisches Designmuster trifft (die Zweckentfremdung von NLP-Architekturen ohne Modifikation) und nicht LLMs für numerische Daten im Allgemeinen.
Warum dies für Finanz-KI wichtig ist
Für Beancount-Vorhersageaufgaben – wie die Prognose des Kontostands im nächsten Monat, die Schätzung der jährlichen Steuerlast oder das Aufspüren von Cashflow-Lücken – drängt dieses Paper deutlich in Richtung leichtgewichtiger, zweckgebundener numerischer Modelle. Die Rechenlücke ist nicht theoretisch: Ein Agent, der rollierende Prognosen über ein persönliches Hauptbuch erstellt, kann sich den Inferenz-Overhead von Time-LLM nicht leisten.
Es gibt noch eine schärfere Implikation. Das Ergebnis zur sequentiellen Struktur deutet darauf hin, dass jeder Agent, der Einträge im Hauptbuch als Token behandelt und erwartet, dass das Modell allein aus dem Kontext über die zeitliche Abfolge urteilt, auf unsicherem Boden steht. Wenn das Modell "gemischt" nicht von "geordnet" unterscheiden kann, muss der zeitliche Musterabgleich explizit entwickelt werden – durch Positionskodierung, Trend-Saison-Dekomposition oder eine zweckgebundene Architektur – und darf nicht als bloßes Nebenprodukt des Vortrainings vorausgesetzt werden.
Das Risiko besteht in einer Übergeneralisierung. Die Kritik von Tan et al. bezieht sich eng auf die numerische Extrapolation. LLMs bieten weiterhin echten Mehrwert, wenn die Aufgabe natürliche Sprache beinhaltet – das Erklären von Anomalien, das Beantworten der Frage "Warum sind meine Ausgaben für Lebensmittel im März sprunghaft angestiegen?" oder das Prüfen von narrativen Notizen in einem Hauptbuch. Der Fehler wäre es, "LLMs können keine Zeitreihen extrapolieren" mit "LLMs können nicht über Finanzen urteilen" gleichzusetzen. Dies sind unterschiedliche Behauptungen, und Bean Labs benötigt beide Fähigkeiten.
Was man als Nächstes lesen sollte
- TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) – Googles Modell mit 200 Mio. Parametern, das auf 100 Mrd. realen Zeitpunkten vortrainiert wurde; speziell für die Vorhersage entwickelt, statt aus dem NLP-Bereich zweckentfremdet, und ein direkter Test dafür, ob das Problem die LLMs oder das Muster der Zweckentfremdung ist.
- Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) – Amazons Ansatz, numerische Werte in ein diskretes Vokabular zu tokenisieren und T5-basierte Modelle von Grund auf auf Zeitreihen zu trainieren; im Geiste näher an PatchTST als an GPT-basierten Prognosesystemen, erzielt es starke Zero-Shot-Ergebnisse in 42 Benchmarks.
- PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) – das Design aus Patching + Kanalunabhängigkeit, das den meisten in diesem Paper untersuchten LLM-Wrappern zugrunde liegt; sein Verständnis klärt genau, welche Komponente in OneFitsAll und Time-LLM die eigentliche Arbeit leistet.
