Les LLM ne sont pas utiles pour la prévision de séries temporelles : ce que NeurIPS 2024 signifie pour l'IA financière
Ce papier est apparu sur ma liste de lecture car il remet directement en cause la vague de travaux sur la prévision de séries temporelles basée sur les LLM de 2023–2024. Alors que Bean Labs réfléchit à la prévision des soldes de comptes et des flux de trésorerie à partir des journaux Beancount, la question de savoir s'il faut utiliser des LLM généralistes ou des modèles numériques dédiés n'est pas académique. Le résultat Spotlight de Tan et al. à NeurIPS 2024 est une douche froide.
L'article
« Are Language Models Actually Useful for Time Series Forecasting? » par Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff et Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) réalise une ablation de trois méthodes de prévision populaires basées sur les LLM : OneFitsAll (GPT-2 avec attention gelée et patching), Time-LLM (LLaMA avec reprogrammation de patchs) et CALF (GPT-2 avec adaptateurs LoRA et alignement cross-modal). La question est de savoir si la suppression ou le remplacement du composant LLM dégrade les performances. Sur 13 benchmarks, la réponse est presque toujours non — et souvent, les versions après ablation sont meilleures.
Idées clés
- Les ablations surpassent Time-LLM dans 26/26 cas de métriques sur 13 jeux de données, CALF dans 22/26, et OneFitsAll dans 19/26 — le LLM est un frein plus souvent qu'il n'aide.
- Time-LLM possède 6 642 M de paramètres et nécessite 3 003 minutes d'entraînement sur le jeu de données Weather ; une ablation avec uniquement de l'attention de 0,245 M de paramètres s'entraîne en 2,17 minutes — soit une accélération d'environ 1 383× avec une précision égale ou supérieure.
- Les LLM initialisés de manière aléatoire surpassent les modèles pré-entraînés dans 8 des 11 comparaisons de jeux de données, ce qui signifie que les poids pré-entraînés sur du texte contribuent négativement au bilan global.
- Dans les contextes de few-shot learning (10 % des données d'entraînement), Time-LLM et l'ablation sans LLM l'emportent chacun dans 8 des 16 cas — statistiquement indiscernables, réfutant l'argument du few-shot couramment utilisé pour justifier l'inclusion des LLM.
- Le mélange aléatoire (shuffling) de séquences entières de séries temporelles dégrade de manière comparable les modèles basés sur les LLM et ceux basés uniquement sur l'attention, ce qui suggère qu'aucune de ces architectures ne capture de manière fiable la structure temporelle séquentielle.
- Une simple base de référence PAttn (patching plus une seule couche d'attention) égale les méthodes LLM complètes sur tous les jeux de données tout en étant beaucoup moins coûteuse lors de l'inférence.
Ce qui tient la route — et ce qui ne tient pas
La conception de l'ablation est rigoureuse : les auteurs remplacent uniquement le composant LLM tout en gardant tout le reste (patching, normalisation, têtes) fixe, de sorte que la comparaison est nette. Le code est public. Le constat sur le calcul seul — une accélération de 1 383×, sans perte de précision — est difficile à contester pour tout cas d'usage en production.
Ce que l'article laisse en suspens, c'est pourquoi les LLM ne parviennent pas à aider. L'expérience de mélange montre que les modèles ne peuvent pas distinguer les séries ordonnées temporellement des séries brouillées — mais cette pathologie s'applique également aux ablations, pas seulement aux LLM. L'échec pourrait être une propriété plus profonde de la façon dont les transformateurs basés sur les patchs traitent les séries temporelles plutôt qu'un défaut spécifique au modèle de langage. Les auteurs y font allusion mais ne l'approfondissent pas.
La portée est également délimitée. Les trois méthodes utilisent des LLM gelés ou légèrement adaptés de 2022–2023 (GPT-2, LLaMA-7B). Les modèles conçus spécifiquement pour les séries temporelles — Chronos, TimesFM — tokenisent les données numériques différemment et ne sont pas couverts. Un sceptique peut raisonnablement soutenir que la critique s'adresse à un schéma de conception spécifique (le détournement d'architectures NLP sans modification) plutôt qu'aux LLM pour les données numériques en général.
Pourquoi cela compte pour l'IA financière
Pour les tâches de prévision Beancount — prédire le solde du mois prochain, estimer la charge fiscale annuelle, identifier les écarts de trésorerie — cet article pousse fermement vers des modèles numériques légers et dédiés. L'écart de calcul n'est pas théorique : un agent exécutant des prévisions glissantes sur un grand livre personnel ne peut pas se permettre le coût d'inférence de Time-LLM.
Il y a aussi une implication plus forte. La découverte sur la structure séquentielle suggère que tout agent traitant les écritures comptables comme des jetons et s'attendant à ce que le modèle raisonne sur l'ordre temporel à partir du seul contexte est sur un terrain instable. Si le modèle ne peut pas faire la différence entre des données mélangées et ordonnées, la correspondance de motifs temporels doit être conçue explicitement — par codage positionnel, décomposition tendance-saisonnière ou une architecture dédiée — et non supposée émerger du pré-entraînement.
Le risque est de trop généraliser. La critique de Tan et al. porte étroitement sur l'extrapolation numérique. Les LLM apportent toujours une valeur réelle lorsque la tâche implique le langage naturel — expliquer des anomalies, répondre à « pourquoi mes dépenses d'épicerie ont-elles grimpé en mars ? », auditer des notes narratives dans un grand livre. L'erreur est de confondre « les LLM ne peuvent pas extrapoler des séries temporelles » avec « les LLM ne peuvent pas raisonner sur les finances ». Ce sont des affirmations différentes, et Bean Labs a besoin de ces deux capacités.
Que lire ensuite
- TimesFM: « A decoder-only foundation model for time-series forecasting » (Das et al., ICML 2024, arXiv:2310.10688) — Le modèle de 200 M de paramètres de Google pré-entraîné sur 100 milliards de points temporels réels ; conçu pour la prévision plutôt que détourné du NLP, et un test direct pour savoir si le problème vient des LLM ou du schéma de détournement.
- Chronos: « Learning the Language of Time Series » (Ansari et al., TMLR 2024, arXiv:2403.07815) — L'approche d'Amazon consistant à tokeniser les valeurs numériques dans un vocabulaire discret et à entraîner des modèles basés sur T5 à partir de zéro sur des séries temporelles ; plus proche de l'esprit de PatchTST que des prévisionnistes basés sur GPT et obtient des résultats zero-shot solides sur 42 benchmarks.
- PatchTST: « A Time Series is Worth 64 Words » (Nie et al., ICLR 2023, arXiv:2211.14730) — La conception basée sur le patching et l'indépendance des canaux qui sous-tend la plupart des enveloppes LLM analysées dans cet article ; sa compréhension clarifie exactement quel composant fait le vrai travail dans OneFitsAll et Time-LLM.
