Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera
Este artículo apareció en mi lista de lectura porque desafía directamente la ola de trabajos sobre pronóstico de series temporales basados en LLM de 2023–2024. Mientras Bean Labs reflexiona sobre el pronóstico de saldos de cuentas y flujos de caja a partir de libros de contabilidad de Beancount, la cuestión de si utilizar LLM generales o modelos numéricos diseñados específicamente no es académica. El resultado Spotlight de Tan et al. en NeurIPS 2024 es un balde de agua fría.
El artículo
"Are Language Models Actually Useful for Time Series Forecasting?" (¿Son realmente útiles los modelos de lenguaje para el pronóstico de series temporales?) por Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff y Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) analiza tres métodos populares de pronóstico basados en LLM: OneFitsAll (GPT-2 con atención congelada y parcheo), Time-LLM (LLaMA con reprogramación de parches) y CALF (GPT-2 con adaptadores LoRA y alineación transmodal). El interrogante es si eliminar o reemplazar el componente LLM degrada el rendimiento. En 13 pruebas de referencia, la respuesta es casi siempre no, y a menudo las versiones simplificadas son mejores.
Ideas clave
- Las versiones simplificadas superan a Time-LLM en 26 de 26 casos métricos en 13 conjuntos de datos, a CALF en 22 de 26 y a OneFitsAll en 19 de 26; el LLM es un lastre más a menudo de lo que ayuda.
- Time-LLM tiene 6,642 millones de parámetros y requiere 3,003 minutos de entrenamiento en el conjunto de datos Weather; una versión simplificada de solo atención con 0.245 millones de parámetros se entrena en 2.17 minutos, lo que representa una aceleración de aproximadamente 1,383 veces con una precisión igual o mejor.
- Los LLM inicializados aleatoriamente superan a los preentrenados en 8 de 11 comparaciones de conjuntos de datos, lo que significa que los pesos preentrenados en texto contribuyen negativamente en el balance general.
- En configuraciones de pocos ejemplos (10% de datos de entrenamiento), Time-LLM y la versión sin LLM ganan cada uno en 8 de 16 casos; estadísticamente indistinguibles, lo que refuta el argumento de "pocos ejemplos" comúnmente utilizado para justificar la inclusión de LLM.
- Barajar secuencias enteras de series temporales degrada tanto los modelos basados en LLM como los de solo atención de manera comparable, lo que sugiere que ninguna de las arquitecturas captura de manera confiable la estructura temporal secuencial.
- Un modelo base simple PAttn (parcheo más una sola capa de atención) iguala los métodos de LLM completos en todos los conjuntos de datos, siendo órdenes de magnitud más económico en la inferencia.
Lo que se mantiene y lo que no
El diseño del análisis de componentes es riguroso: los autores reemplazan solo el componente LLM mientras mantienen todo lo demás (parcheo, normalización, cabezales) fijo, por lo que la comparación es limpia. El código es público. El hallazgo sobre el cómputo por sí solo —aceleración de 1,383 veces, sin pérdida de precisión— es difícil de rebatir para cualquier caso de uso en producción.
Lo que el artículo deja abierto es por qué los LLM no ayudan. El experimento de barajado muestra que los modelos no pueden distinguir las series ordenadas temporalmente de las desordenadas, pero esta patología también se presenta en las versiones simplificadas, no solo en los LLM. El fallo podría ser una propiedad más profunda de cómo los transformers basados en parches procesan las series temporales, en lugar de una falla específica del modelo de lenguaje. Los autores insinúan esto pero no profundizan.
El alcance también está delimitado. Los tres métodos utilizan LLM congelados o ligeramente adaptados de 2022–2023 (GPT-2, LLaMA-7B). Los modelos diseñados específicamente para series temporales —como Chronos o TimesFM— tokenizan los datos numéricos de manera diferente y no están cubiertos. Un escéptico puede argumentar razonablemente que la crítica recae en un patrón de diseño específico (reutilizar arquitecturas de PLN sin modificaciones) en lugar de en los LLM para datos numéricos en general.
Por qué esto es importante para la IA financiera
Para las tareas de pronóstico en Beancount —predecir el saldo del próximo mes, estimar la obligación tributaria anual, identificar brechas en el flujo de caja— este artículo impulsa firmemente hacia modelos numéricos ligeros diseñados para tal fin. La brecha de cómputo no es teórica: un agente que ejecuta pronósticos continuos sobre un libro de contabilidad personal no puede permitirse la sobrecarga de inferencia de Time-LLM.
Existe una implicación más aguda también. El hallazgo sobre la estructura secuencial sugiere que cualquier agente que trate las entradas del libro de contabilidad como tokens y espere que el modelo razone sobre el orden temporal solo a partir del contexto está en terreno inestable. Si el modelo no puede distinguir lo barajado de lo ordenado, el emparejamiento de patrones temporales debe diseñarse explícitamente —a través de codificación posicional, descomposición de tendencia-estacionalidad o una arquitectura específica— y no suponer que emergerá del preentrenamiento.
El riesgo es generalizar en exceso. La crítica de Tan et al. se refiere estrictamente a la extrapolación numérica. Los LLM siguen aportando un valor genuino cuando la tarea involucra lenguaje natural: explicar anomalías, responder "¿por qué aumentó mi gasto en comestibles en marzo?", o auditar notas narrativas en un libro de contabilidad. El error es confundir "los LLM no pueden extrapolar series temporales" con "los LLM no pueden razonar sobre finanzas". Estas son afirmaciones diferentes, y Bean Labs necesita ambas capacidades.
Qué leer a continuación
- TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688): el modelo de Google con 200 millones de parámetros preentrenado en 100 mil millones de puntos de tiempo reales; diseñado para pronósticos en lugar de ser reutilizado de PLN, y una prueba directa de si el problema son los LLM o el patrón de reutilización.
- Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815): el enfoque de Amazon de tokenizar valores numéricos en un vocabulario discreto y entrenar modelos basados en T5 desde cero con series temporales; más cercano en espíritu a PatchTST que a los pronosticadores basados en GPT, logrando sólidos resultados zero-shot en 42 pruebas de referencia.
- PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730): el diseño de parcheo + independencia de canales que subyace a la mayoría de los envoltorios de LLM analizados en este artículo; comprenderlo aclara exactamente qué componente está haciendo el trabajo real en OneFitsAll y Time-LLM.
