Перейти к контенту

LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Эта статья попала в мой список для чтения, потому что она напрямую бросает вызов волне работ по прогнозированию временных рядов на базе LLM 2023–2024 годов. Пока Bean Labs размышляет о прогнозировании остатков на счетах и денежных потоков в книгах Beancount, вопрос о том, использовать ли универсальные LLM или специализированные численные модели, перестает быть академическим. Результаты Тан и др. на NeurIPS 2024 Spotlight — это ушат холодной воды.

О статье

2026-05-23-are-llms-useful-for-time-series-forecasting

В работе «Действительно ли языковые модели полезны для прогнозирования временных рядов?» (Are Language Models Actually Useful for Time Series Forecasting?) Минтяня Тана, Майка Меррилла, Винаяка Гупты, Тима Альтхоффа и Томаса Хартвигсена (arXiv:2406.16964, NeurIPS 2024 Spotlight) проводится абляция трех популярных методов прогнозирования на базе LLM: OneFitsAll (GPT-2 с замороженным вниманием и патчингом), Time-LLM (LLaMA с перепрограммированием патчей) и CALF (GPT-2 с адаптерами LoRA и кросс-модальным выравниванием). Вопрос заключается в том, ухудшает ли удаление или замена компонента LLM производительность. На 13 бенчмарках ответ почти всегда отрицательный — более того, зачастую варианты с абляцией показывают лучшие результаты.

Ключевые идеи

  • Абляции превосходят Time-LLM в 26 из 26 случаев по метрикам на 13 наборах данных, CALF — в 22 из 26, а OneFitsAll — в 19 из 26. LLM чаще мешает работе, чем помогает.
  • Time-LLM имеет 6 642 млн параметров и требует 3 003 минут обучения на наборе данных Weather; абляция с использованием только механизма внимания (0,245 млн параметров) обучается за 2,17 минуты — ускорение примерно в 1 383 раза при аналогичной или более высокой точности.
  • Случайно инициализированные LLM превосходят предобученные в 8 из 11 сравнений наборов данных. Это означает, что веса, обученные на тексте, в конечном итоге вносят скорее отрицательный вклад.
  • В сценариях few-shot (обучение на 10% данных), Time-LLM и абляция без LLM выигрывают по 8 раз из 16 — статистически неразличимый результат, что опровергает аргумент о «few-shot обучении», часто используемый для оправдания включения LLM.
  • Перемешивание последовательностей временных рядов одинаково ухудшает работу как моделей на базе LLM, так и моделей только с механизмом внимания. Это говорит о том, что ни одна из архитектур не улавливает последовательную временную структуру надежным образом.
  • Простой базовый уровень PAttn (патчинг плюс один слой внимания) соответствует полным методам LLM на всех наборах данных, при этом будучи на порядки дешевле при инференсе.

Что подтвердилось, а что нет

Дизайн абляции принципиален: авторы заменяют только компонент LLM, сохраняя все остальное (патчинг, нормализацию, выходные головы) неизменным, поэтому сравнение является «чистым». Код открыт. Против одного только вывода о вычислениях — ускорение в 1 383 раза без потери точности — трудно возразить в любом реальном сценарии эксплуатации.

Статья оставляет открытым вопрос, почему LLM не помогают. Эксперимент с перемешиванием показывает, что модели не могут отличить упорядоченные во времени ряды от перемешанных, но эта патология характерна и для абляций, а не только для LLM. Неудача может быть глубинным свойством того, как трансформеры на базе патчей обрабатывают временные ряды, а не специфическим недостатком языковой модели. Авторы намекают на это, но не развивают мысль глубоко.

Масштаб исследования также ограничен. Все три метода используют замороженные или слегка адаптированные LLM образца 2022–2023 годов (GPT-2, LLaMA-7B). Модели, специально созданные для временных рядов — Chronos, TimesFM — токенизируют числовые данные иначе и не рассматриваются в статье. Скептик может резонно возразить, что критика направлена на конкретный паттерн проектирования (адаптация NLP-архитектур без серьезных изменений), а не на использование LLM для числовых данных в целом.

Почему это важно для ИИ в финансах

Для задач прогнозирования в Beancount — предсказания баланса на следующий месяц, оценки годовых налоговых обязательств, выявления кассовых разрывов — эта статья решительно подталкивает к использованию легких специализированных численных моделей. Разрыв в вычислительных ресурсах не является теоретическим: агент, выполняющий скользящие прогнозы по личному журналу учета, не может позволить себе накладные расходы Time-LLM.

Есть и более серьезное последствие. Вывод о последовательной структуре предполагает, что любой агент, рассматривающий записи в журнале как токены и ожидающий, что модель сама поймет временную последовательность только из контекста, стоит на шаткой почве. Если модель не отличает перемешанные данные от упорядоченных, сопоставление временных шаблонов должно быть спроектировано явно — через позиционное кодирование, тренд-сезонную декомпозицию или специализированную архитектуру, — а не считаться автоматическим следствием предобучения.

Риск заключается в чрезмерном обобщении. Критика Тан и др. касается исключительно численной экстраполяции. LLM по-прежнему приносят реальную пользу, когда задача связана с естественным языком — объяснение аномалий, ответ на вопрос «почему мои расходы на продукты выросли в марте?», аудит текстовых заметок в журнале. Ошибка — смешивать понятия «LLM не могут экстраполировать временные ряды» и «LLM не могут рассуждать о финансах». Это разные утверждения, и Bean Labs нужны обе возможности.

Что почитать дальше

  • TimesFM: «A decoder-only foundation model for time-series forecasting» (Das et al., ICML 2024, arXiv:2310.10688) — модель Google с 200 млн параметров, обученная на 100 млрд реальных временных точек; создана специально для прогнозирования, а не адаптирована из NLP, и является прямой проверкой того, в чем проблема: в самих LLM или в паттерне их адаптации.
  • Chronos: «Learning the Language of Time Series» (Ansari et al., TMLR 2024, arXiv:2403.07815) — подход Amazon по токенизации числовых значений в дискретный словарь и обучению моделей на базе T5 с нуля на временных рядах; по духу ближе к PatchTST, чем к прогнозировщикам на базе GPT, и достигает сильных результатов zero-shot на 42 тестах.
  • PatchTST: «A Time Series is Worth 64 Words» (Nie et al., ICLR 2023, arXiv:2211.14730) — дизайн с патчингом и независимостью каналов, который лежит в основе большинства оболочек LLM, исследованных в этой статье. Понимание этой работы проясняет, какой именно компонент выполняет основную работу в OneFitsAll и Time-LLM.