LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах

23 мая 2026 г. · 6 мин чтения

Mike Thrift

Marketing Manager

Эта статья попала в мой список для чтения, потому что она напрямую бросает вызов волне работ по прогнозированию временных рядов на базе LLM 2023–2024 годов. Пока Bean Labs размышляет о прогнозировании остатков на счетах и денежных потоков в книгах Beancount, вопрос о том, использовать ли универсальные LLM или специализированные численные модели, перестает быть академическим. Результаты Тан и др. на NeurIPS 2024 Spotlight — это ушат холодной воды.

О статье

2026-05-23-are-llms-useful-for-time-series-forecasting

В работе «Действительно ли языковые модели полезны для прогнозирования временных рядов?» (Are Language Models Actually Useful for Time Series Forecasting?) Минтяня Тана, Майка Меррилла, Винаяка Гупты, Тима Альтхоффа и Томаса Хартвигсена (arXiv:2406.16964, NeurIPS 2024 Spotlight) проводится абляция трех популярных методов прогнозирования на базе LLM: OneFitsAll (GPT-2 с замороженным вниманием и патчингом), Time-LLM (LLaMA с перепрограммированием патчей) и CALF (GPT-2 с адаптерами LoRA и кросс-модальным выравниванием). Вопрос заключается в том, ухудшает ли удаление или замена компонента LLM производительность. На 13 бенчмарках ответ почти всегда отрицательный — более того, зачастую варианты с абляцией показывают лучшие результаты.

Ключевые идеи

Абляции превосходят Time-LLM в 26 из 26 случаев по метрикам на 13 наборах данных, CALF — в 22 из 26, а OneFitsAll — в 19 из 26. LLM чаще мешает работе, чем помогает.
Time-LLM имеет 6 642 млн параметров и требует 3 003 минут обучения на наборе данных Weather; абляция с использованием только механизма внимания (0,245 млн параметров) обучается за 2,17 минуты — ускорение примерно в 1 383 раза при аналогичной или более высокой точности.
Случайно инициализированные LLM превосходят предобученные в 8 из 11 сравнений наборов данных. Это означает, что веса, обученные на тексте, в конечном итоге вносят скорее отрицательный вклад.
В сценариях few-shot (обучение на 10% данных), Time-LLM и абляция без LLM выигрывают по 8 раз из 16 — статистически неразличимый результат, что опровергает аргумент о «few-shot обучении», часто используемый для оправдания включения LLM.
Перемешивание последовательностей временных рядов одинаково ухудшает работу как моделей на базе LLM, так и моделей только с механизмом внимания. Это говорит о том, что ни одна из архитектур не улавливает последовательную временную структуру надежным образом.
Простой базовый уровень PAttn (патчинг плюс один слой внимания) соответствует полным методам LLM на всех наборах данных, при этом будучи на порядки дешевле при инференсе.

Что подтвердилось, а что нет

Дизайн абляции принципиален: авторы заменяют только компонент LLM, сохраняя все остальное (патчинг, нормализацию, выходные головы) неизменным, поэтому сравнение является «чистым». Код открыт. Против одного только вывода о вычислениях — ускорение в 1 383 раза без потери точности — трудно возразить в любом реальном сценарии эксплуатации.

Статья оставляет открытым вопрос, почему LLM не помогают. Эксперимент с перемешиванием показывает, что модели не могут отличить упорядоченные во времени ряды от перемешанных, но эта патология характерна и для абляций, а не только для LLM. Неудача может быть глубинным свойством того, как трансформеры на базе патчей обрабатывают временные ряды, а не специфическим недостатком языковой модели. Авторы намекают на это, но не развивают мысль глубоко.

Масштаб исследования также ограничен. Все три метода используют замороженные или слегка адаптированные LLM образца 2022–2023 годов (GPT-2, LLaMA-7B). Модели, специально созданные для временных рядов — Chronos, TimesFM — токенизируют числовые данные иначе и не рассматриваются в статье. Скептик может резонно возразить, что критика направлена на конкретный паттерн проектирования (адаптация NLP-архитектур без серьезных изменений), а не на использование LLM для числовых данных в целом.

Почему это важно для ИИ в финансах

Для задач прогнозирования в Beancount — предсказания баланса на следующий месяц, оценки годовых налоговых обязательств, выявления кассовых разрывов — эта статья решительно подталкивает к использованию легких специализированных численных моделей. Разрыв в вычислительных ресурсах не является теоретическим: агент, выполняющий скользящие прогнозы по личному журналу учета, не может позволить себе накладные расходы Time-LLM.

Есть и более серьезное последствие. Вывод о последовательной структуре предполагает, что любой агент, рассматривающий записи в журнале как токены и ожидающий, что модель сама поймет временную последовательность только из контекста, стоит на шаткой почве. Если модель не отличает перемешанные данные от упорядоченных, сопоставление временных шаблонов должно быть спроектировано явно — через позиционное кодирование, тренд-сезонную декомпозицию или специализированную архитектуру, — а не считаться автоматическим следствием предобучения.

Риск заключается в чрезмерном обобщении. Критика Тан и др. касается исключительно численной экстраполяции. LLM по-прежнему приносят реальную пользу, когда задача связана с естественным языком — объяснение аномалий, ответ на вопрос «почему мои расходы на продукты выросли в марте?», аудит текстовых заметок в журнале. Ошибка — смешивать понятия «LLM не могут экстраполировать временные ряды» и «LLM не могут рассуждать о финансах». Это разные утверждения, и Bean Labs нужны обе возможности.

Что почитать дальше

TimesFM: «A decoder-only foundation model for time-series forecasting» (Das et al., ICML 2024, arXiv:2310.10688) — модель Google с 200 млн параметров, обученная на 100 млрд реальных временных точек; создана специально для прогнозирования, а не адаптирована из NLP, и является прямой проверкой того, в чем проблема: в самих LLM или в паттерне их адаптации.
Chronos: «Learning the Language of Time Series» (Ansari et al., TMLR 2024, arXiv:2403.07815) — подход Amazon по токенизации числовых значений в дискретный словарь и обучению моделей на базе T5 с нуля на временных рядах; по духу ближе к PatchTST, чем к прогнозировщикам на базе GPT, и достигает сильных результатов zero-shot на 42 тестах.
PatchTST: «A Time Series is Worth 64 Words» (Nie et al., ICLR 2023, arXiv:2211.14730) — дизайн с патчингом и независимостью каналов, который лежит в основе большинства оболочек LLM, исследованных в этой статье. Понимание этой работы проясняет, какой именно компонент выполняет основную работу в OneFitsAll и Time-LLM.

Share on Twitter Follow @beancount_io

LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах

О статье

Ключевые идеи

Что подтвердилось, а что нет

Почему это важно для ИИ в финансах

Что почитать дальше

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация

О статье​

Ключевые идеи​

Что подтвердилось, а что нет​

Почему это важно для ИИ в финансах​

Что почитать дальше​

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация

О статье

Ключевые идеи

Что подтвердилось, а что нет

Почему это важно для ИИ в финансах

Что почитать дальше