メインコンテンツまでスキップ

LLMは時系列予測には役に立たない:NeurIPS 2024が金融AIにもたらす意味

· 約8分
Mike Thrift
Mike Thrift
Marketing Manager

この論文が私の読書リストに挙がったのは、2023年から2024年にかけてのLLMベースの時系列予測研究の波に真っ向から異を唱えるものだからです。Bean LabsがBeancountの帳簿から口座残高やキャッシュフローの予測を検討する際、汎用的なLLMを使用すべきか、それとも数値データ専用のモデルを使用すべきかという問いは、決して机上の空論ではありません。TanらによるNeurIPS 2024のSpotlight論文の結果は、まさに冷や水を浴びせるものでした。

論文について

2026-05-23-are-llms-useful-for-time-series-forecasting

「言語モデルは実際に時系列予測に有用なのか?(Are Language Models Actually Useful for Time Series Forecasting?)」というMingtian Tan、Mike Merrill、Vinayak Gupta、Tim Althoff、Thomas Hartvigsenによる論文(arXiv:2406.16964、NeurIPS 2024 Spotlight)は、OneFitsAll(フリーズされたAttentionとパッチングを適用したGPT-2)、Time-LLM(パッチの再プログラミングを適用したLLaMA)、CALF(LoRAアダプターとクロスモーダル・アライメントを適用したGPT-2)という3つの一般的なLLMベースの予測手法をアブレーション解析しています。問いは、LLMコンポーネントを削除または置換することでパフォーマンスが低下するかどうかです。13のベンチマークにおいて、その答えはほとんどの場合「いいえ」であり、多くの場合、アブレーション(LLM除去)モデルの方が優れていました。

主な知見

  • アブレーションモデルは、13のデータセットにわたる26/26の評価指標でTime-LLMを上回り、CALFでは22/26、OneFitsAllでは19/26で上回りました。LLMは助けになるよりも、足かせになることの方が多いのです。
  • Time-LLMは66億4,200万のパラメータを持ち、Weatherデータセットでの学習に3,003分を要しますが、24万5,000パラメータのAttentionのみのアブレーションモデルは2.17分で学習を完了します。これは、同等以上の精度を維持しつつ、約1,383倍の高速化を実現したことになります。
  • ランダムに初期化されたLLMが、11のデータセット比較のうち8つで学習済みLLMを上回りました。これは、テキストで事前学習された重みが、トータルで見るとマイナスに寄与していることを意味します。
  • Few-shot設定(学習データの10%)において、Time-LLMとLLMなしのアブレーションモデルはそれぞれ16事例中8事例で勝利しました。これは統計的に見分けがつかない結果であり、LLM導入を正当化するために一般的に使われるfew-shot引数を論破しています。
  • 時系列シーケンス全体をシャッフルすると、LLMベースとAttentionのみのモデルの両方で同程度の劣化が見られました。これは、どちらのアーキテクチャも連続的な時間構造を確実には捉えていないことを示唆しています。
  • シンプルなPAttnベースライン(パッチングと単層のAttention)は、推論コストが桁違いに低いにもかかわらず、すべてのデータセットにおいてフルLLM手法と同等の性能を示しました。

有効な点とそうでない点

アブレーションの設計は理にかなっています。著者らは、他の要素(パッチング、正規化、ヘッド)を固定したままLLMコンポーネントのみを置き換えているため、比較が明確です。コードも公開されています。計算量に関する知見(精度を落とさずに1,383倍の高速化)だけでも、本番環境でのユースケースにおいて反論の余地はありません。

この論文で未解決のままなのは、「なぜ」LLMが役に立たないのかという点です。シャッフル実験では、モデルが時間順に並んだデータとバラバラなデータを区別できないことが示されましたが、この病理はアブレーションモデルにも当てはまります。この失敗は、言語モデル固有の欠陥というよりも、パッチベースのトランスフォーマーが時系列を処理する方法のより深い特性である可能性があります。著者らはこれを示唆していますが、深くは追究していません。

また、スコープも限定的です。3つの手法はすべて、2022年から2023年にかけてのフリーズされた、あるいは軽く適応されたLLM(GPT-2、LLaMA-7B)を使用しています。時系列専用に構築されたモデル(Chronos、TimesFMなど)は、数値データのトークン化方法が異なり、この論文の対象外です。懐疑的な見方をすれば、この批判は数値データ全般に対するLLMではなく、特定の設計パターン(NLPアーキテクチャを修正なしで転用する手法)に向けられたものだと言えるでしょう。

金融AIにとっての重要性

翌月の残高予測、年間納税額の推定、キャッシュフローのギャップの特定といったBeancountの予測タスクにおいて、この論文は軽量な専用の数値モデルへと強く背中を押すものです。計算量の差は理論的な話ではありません。個人の帳簿に対してローリング予測を実行するエージェントにとって、Time-LLMの推論オーバーヘッドを許容することはできません。

より鋭い示唆もあります。連続的な構造に関する知見は、帳簿のエントリをトークンとして扱い、モデルが文脈のみから時間的な順序を推論することを期待するエージェントは、危うい土台の上に立っていることを示唆しています。もしモデルがシャッフルされたデータと並んだデータを区別できないのであれば、時間的なパターンマッチングは、事前学習から自然に現れることを期待するのではなく、位置エンコーディングやトレンド・季節分解、あるいは専用のアーキテクチャを通じて、明示的にエンジニアリングされる必要があります。

リスクは一般化しすぎることです。Tanらの批判は、あくまで数値の補外(extrapolation)に限定されています。異常値の説明、「なぜ3月に食費が急増したのか」への回答、帳簿の注釈の監査など、タスクに自然言語が含まれる場合には、依然としてLLMには真の価値があります。「LLMは時系列を補外できない」ということと「LLMは財務上の推論ができない」ということを混同してはいけません。これらは異なる主張であり、Bean Labsにはその両方の能力が必要です。

次に読むべきもの

  • TimesFM: 「時系列予測のためのデコーダー専用基盤モデル」(Dasら, ICML 2024, arXiv:2310.10688) — Googleによる、1,000億の現実世界の時間ポイントで事前学習された2億パラメータのモデル。NLPからの転用ではなく予測専用に構築されており、問題がLLM自体にあるのか、それとも転用パターンにあるのかを検証する直接的なテストとなります。
  • Chronos: 「時系列の言語を学習する」(Ansariら, TMLR 2024, arXiv:2403.07815) — 数値を離散的な語彙にトークン化し、T5ベースのモデルを時系列データでゼロから学習させるAmazonのアプローチ。GPTベースの予測モデルよりもPatchTSTに近い精神を持ち、42のベンチマークで強力なゼロショットの結果を達成しています。
  • PatchTST: 「時系列は64語の価値がある」(Nieら, ICLR 2023, arXiv:2211.14730) — この論文でアブレーションされたほとんどのLLMラッパーの根底にある、パッチング+チャネル独立の設計。これを理解することで、OneFitsAllやTime-LLMにおいてどのコンポーネントが実際に機能しているのかが明確になります。