Salta al contingut principal

Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Aquest article va aparèixer a la meva llista de lectura perquè desafia directament l'onada de treballs de previsió de sèries temporals basats en LLM del 2023–2024. Com que Bean Labs reflexiona sobre la previsió dels saldos dels comptes i els fluxos de caixa a partir dels llibres de Beancount, la qüestió de si cal utilitzar LLM generals o models numèrics dissenyats específicament no és acadèmica. El resultat Spotlight de Tan et al. a NeurIPS 2024 és una galleda d'aigua freda.

L'article

2026-05-23-are-llms-useful-for-time-series-forecasting

"Are Language Models Actually Useful for Time Series Forecasting?" de Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff i Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) realitza una ablació de tres mètodes populars de previsió basats en LLM: OneFitsAll (GPT-2 amb atenció congelada i patching), Time-LLM (LLaMA amb reprogramació de patches) i CALF (GPT-2 amb adaptadors LoRA i alineació cross-modal). La pregunta és si eliminar o substituir el component LLM degrada el rendiment. En 13 proves de referència, la resposta és gairebé sempre no —i sovint les ablacions són millors.

Idees clau

  • Les ablacions superen Time-LLM en 26/26 mètriques en 13 conjunts de dades, CALF en 22/26 i OneFitsAll en 19/26 —el LLM és un llast més sovint del que ajuda.
  • Time-LLM té 6.642 milions de paràmetres i requereix 3.003 minuts d'entrenament en el conjunt de dades Weather; una ablació només d'atenció de 0,245 milions de paràmetres s'entrena en 2,17 minuts —aproximadament una acceleració de 1.383 vegades amb una precisió igual o millor.
  • Els LLM inicialitzats aleatòriament superen els preentrenats en 8 de les 11 comparacions de conjunts de dades, el que significa que els pesos preentrenats en text contribueixen negativament en general.
  • En configuracions de pocs exemples (10% de dades d'entrenament), Time-LLM i l'ablació sense LLM guanyen cadascun en 8 de 16 casos —estadísticament indistingibles, refutant l'argument de pocs exemples utilitzat habitualment per justificar la inclusió de LLM.
  • Desordenar seqüències senceres de sèries temporals degrada tant els models basats en LLM com els d'atenció pura de manera comparable, cosa que suggereix que cap de les dues arquitectures capta de manera fiable l'estructura temporal seqüencial.
  • Una línia base senzilla de PAttn (patching més una sola capa d'atenció) iguala els mètodes LLM complets en tots els conjunts de dades, essent alhora ordres de magnitud més barata en la inferència.

Què es manté i què no

El disseny de l'ablació és rigorós: els autors només substitueixen el component LLM mantenint tota la resta (patching, normalització, caps) fix, de manera que la comparació és neta. El codi és públic. La troballa sobre la computació per si sola —una acceleració de 1.383 vegades, sense pèrdua de precisió— és difícil de rebatre per a qualsevol cas d'ús en producció.

El que l'article deixa obert és per què els LLM no ajuden. L'experiment de desordenar les dades mostra que els models no poden distingir les sèries ordenades temporalment de les barrejades —però aquesta patologia també es dona en les ablacions, no només en els LLM. El fracàs podria ser una propietat més profunda de com els transformers basats en patches processen les sèries temporals, més que un defecte específic del model de llenguatge. Els autors ho insinuen però no ho aprofundeixen.

L'abast també està limitat. Tots tres mètodes utilitzen LLM congelats o lleugerament adaptats del 2022–2023 (GPT-2, LLaMA-7B). Els models dissenyats específicament per a sèries temporals —Chronos, TimesFM— tokenitzen les dades numèriques de manera diferent i no estan coberts. Un escèptic pot argumentar raonablement que la crítica recau sobre un patró de disseny específic (readaptar arquitectures de PNL sense modificacions) més que sobre els LLM per a dades numèriques en general.

Per què això és important per a la IA financera

Per a les tasques de previsió de Beancount —predir el saldo del mes vinent, estimar l'obligació tributària anual, identificar buits en el flux de caixa— aquest article ens empeny decididament cap a models numèrics lleugers dissenyats específicament. La bretxa computacional no és teòrica: un agent que executa previsions contínues sobre un llibre comptable personal no pot permetre's el sobrecost d'inferència de Time-LLM.

També hi ha una implicació més punyent. La troballa de l'estructura seqüencial suggereix que qualsevol agent que tracti les entrades del llibre comptable com a tokens i esperi que el model raoni sobre l'ordre temporal només a partir del context està en terreny inestable. Si el model no pot distingir entre dades desordenades i ordenades, la concordança de patrons temporals s'ha d'enginyar explícitament —mitjançant codificació posicional, descomposició de tendència-estacionalitat o una arquitectura específica— i no suposar que emergirà del preentrenament.

El risc és sobre-generalitzar. La crítica de Tan et al. és estrictament sobre l'extrapolació numèrica. Els LLM segueixen aportant un valor real quan la tasca implica llenguatge natural —explicar anomalies, respondre "per què es va disparar la meva despesa en queviures al març", auditar notes narratives en un llibre. L'error és confondre "els LLM no poden extrapolar sèries temporals" amb "els LLM no poden raonar sobre finances". Són afirmacions diferents, i Bean Labs necessita ambdues capacitats.

Què llegir a continuació

  • TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) —el model de Google de 200 milions de paràmetres preentrenat amb 100.000 milions de punts temporals reals; dissenyat específicament per a la previsió en lloc d'haver estat readaptat de PNL, i una prova directa de si el problema són els LLM o el patró de readaptació.
  • Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) —l'enfocament d'Amazon de tokenitzar valors numèrics en un vocabulari discret i entrenar models basats en T5 des de zero per a sèries temporals; més proper en esperit a PatchTST que als predictors basats en GPT i aconsegueix resultats zero-shot sòlids en 42 proves de referència.
  • PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) —el disseny de patching + independència de canals que sustenta la majoria dels embolcalls de LLM analitzats en aquest article; entendre'l aclareix exactament quin component està fent el treball real a OneFitsAll i Time-LLM.