LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira
Este artigo apareceu na minha lista de leitura porque desafia diretamente a onda de trabalhos de previsão de séries temporais baseados em LLM de 2023–2024. Enquanto a Bean Labs pensa sobre a previsão de saldos de contas e fluxos de caixa a partir de livros contábeis do Beancount, a questão de usar LLMs genéricos ou modelos numéricos específicos não é acadêmica. O resultado do Spotlight do NeurIPS 2024 de Tan et al. é um balde de água fria.
O artigo
"Are Language Models Actually Useful for Time Series Forecasting?" por Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff e Thomas Hartvigsen (arXiv:2406.16964, NeurIPS 2024 Spotlight) analisa três métodos populares de previsão baseados em LLM: OneFitsAll (GPT-2 com atenção congelada e patching), Time-LLM (LLaMA com reprogramação de patch) e CALF (GPT-2 com adaptadores LoRA e alinhamento cross-modal). A questão é se a remoção ou substituição do componente LLM degrada o desempenho. Em 13 benchmarks, a resposta é quase sempre não — e, frequentemente, as ablações são melhores.
Ideias principais
- As ablações superam o Time-LLM em 26/26 casos de métricas em 13 conjuntos de dados, o CALF em 22/26 e o OneFitsAll em 19/26 — o LLM atrapalha mais vezes do que ajuda.
- O Time-LLM possui 6.642M de parâmetros e requer 3.003 minutos de treinamento no conjunto de dados Weather; uma ablação apenas de atenção de 0,245M de parâmetros treina em 2,17 minutos — aproximadamente uma aceleração de 1.383× com precisão igual ou superior.
- LLMs inicializados aleatoriamente superam os pré-treinados em 8 de 11 comparações de conjuntos de dados, o que significa que os pesos pré-treinados em texto contribuem negativamente no balanço final.
- Em cenários few-shot (10% dos dados de treinamento), o Time-LLM e a ablação sem LLM vencem, cada um, em 8 de 16 casos — estatisticamente indistinguíveis, refutando o argumento few-shot comumente usado para justificar a inclusão de LLMs.
- Embaralhar sequências inteiras de séries temporais degrada tanto os modelos baseados em LLM quanto os modelos apenas de atenção de forma comparável, sugerindo que nenhuma das arquiteturas captura de forma confiável a estrutura temporal sequencial.
- Uma baseline simples PAttn (patching mais uma única camada de atenção) iguala os métodos de LLM completo em todos os conjuntos de dados, sendo ordens de magnitude mais barata na inferência.
O que se sustenta — e o que não se sustenta
O design da ablação é fundamentado: os autores substituem apenas o componente LLM, mantendo todo o resto (patching, normalização, cabeças) fixo, de modo que a comparação seja limpa. O código é público. A descoberta computacional por si só — aceleração de 1.383×, sem perda de precisão — é difícil de contestar para qualquer caso de uso em produção.
O que o artigo deixa em aberto é o porquê dos LLMs falharem em ajudar. O experimento de embaralhamento mostra que os modelos não conseguem distinguir séries ordenadas temporalmente de séries misturadas — mas essa patologia também ocorre nas ablações, não apenas nos LLMs. A falha pode ser uma propriedade mais profunda de como os transformers baseados em patches processam séries temporais, em vez de uma falha específica do modelo de linguagem. Os autores sugerem isso, mas não aprofundam.
O escopo também é limitado. Todos os três métodos usam LLMs congelados ou levemente adaptados de 2022–2023 (GPT-2, LLaMA-7B). Modelos construídos especificamente para séries temporais — Chronos, TimesFM — tokenizam dados numéricos de forma diferente e não são cobertos. Um cético pode argumentar razoavelmente que a crítica atinge um padrão de design específico (reaproveitar arquiteturas de PLN sem modificação) em vez de LLMs para dados numéricos em geral.
Por que isso importa para a IA financeira
Para tarefas de previsão do Beancount — prever o saldo do próximo mês, estimar a responsabilidade fiscal anual, sinalizar lacunas no fluxo de caixa — este artigo aponta firmemente para modelos numéricos leves e específicos. A lacuna computacional não é teórica: um agente que executa previsões contínuas sobre um livro contábil pessoal não pode arcar com a sobrecarga de inferência do Time-LLM.
Há também uma implicação mais aguda. A descoberta da estrutura sequencial sugere que qualquer agente que trate os lançamentos contábeis como tokens e espere que o modelo raciocine sobre a ordenação temporal apenas pelo contexto está em terreno instável. Se o modelo não consegue distinguir o embaralhado do ordenado, a correspondência de padrões temporais precisa ser projetada explicitamente — por meio de codificação posicional, decomposição de tendência-sazonalidade ou uma arquitetura dedicada — e não presumir que emergirá do pré-treinamento.
O risco é a generalização excessiva. A crítica de Tan et al. é estritamente sobre extrapolação numérica. Os LLMs ainda trazem valor genuíno quando a tarefa envolve linguagem natural — explicar anomalias, responder "por que meus gastos com supermercado aumentaram em março", auditar notas narrativas em um livro contábil. O erro é confundir "LLMs não conseguem extrapolar séries temporais" com "LLMs não conseguem raciocinar sobre finanças". São afirmações diferentes, e a Bean Labs precisa de ambas as capacidades.
O que ler a seguir
- TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) — modelo de 200M de parâmetros do Google pré-treinado em 100 bilhões de pontos temporais reais; construído especificamente para previsão em vez de reaproveitado de PLN, sendo um teste direto se o problema são os LLMs ou o padrão de reaproveitamento.
- Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) — abordagem da Amazon de tokenizar valores numéricos em um vocabulário discreto e treinar modelos baseados em T5 do zero em séries temporais; mais próximo em espírito ao PatchTST do que aos previsores baseados em GPT e alcança fortes resultados zero-shot em 42 benchmarks.
- PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) — o design de patching + independência de canal que fundamenta a maioria dos wrappers de LLM analisados neste artigo; entendê-lo esclarece exatamente qual componente está fazendo o trabalho real no OneFitsAll e no Time-LLM.
