본문으로 건너뛰기

LLM은 시계열 예측에 유용하지 않다: NeurIPS 2024가 금융 AI에 시사하는 바

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

이 논문은 2023년부터 2024년까지 이어진 LLM 기반 시계열 예측 연구의 흐름에 직접적으로 도전하는 내용이라 제 읽기 목록에 올랐습니다. Bean Labs에서 Beancount 원장을 바탕으로 계좌 잔액과 현금 흐름을 예측하는 방안을 고민하고 있는 상황에서, 범용 LLM을 사용할지 아니면 전용 수치 모델을 사용할지에 대한 질문은 단순히 학술적인 논의가 아닙니다. Tan 등의 NeurIPS 2024 Spotlight 결과는 차가운 현실을 깨닫게 해주는 경종과 같습니다.

논문 소개

2026-05-23-are-llms-useful-for-time-series-forecasting

Mingtian Tan, Mike Merrill, Vinayak Gupta, Tim Althoff, Thomas Hartvigsen의 저서 "Are Language Models Actually Useful for Time Series Forecasting?" (arXiv:2406.16964, NeurIPS 2024 Spotlight)은 세 가지 대중적인 LLM 기반 예측 방법론을 분석(ablate)했습니다: OneFitsAll (고정된 어텐션 및 패칭을 사용한 GPT-2), Time-LLM (패치 리프로그래밍을 사용한 LLaMA), CALF (LoRA 어댑터 및 교차 모달 정렬을 사용한 GPT-2). 핵심 질문은 LLM 구성 요소를 제거하거나 교체했을 때 성능이 저하되는가 하는 점입니다. 13개의 벤치마크에 걸쳐 답은 거의 항상 "아니오"였으며, 종종 언어 모델을 제거한 버전이 더 나은 성능을 보였습니다.

핵심 아이디어

  • 절제 연구(Ablation) 결과는 13개 데이터셋 전반의 26개 지표 사례 중 Time-LLM보다 26/26, CALF보다 22/26, OneFitsAll보다 19/26의 사례에서 더 우수한 성능을 보였습니다. 즉, LLM은 도움이 되기보다 걸림돌이 되는 경우가 더 많았습니다.
  • Time-LLM은 6,642M개의 파라미터를 가지며 Weather 데이터셋 학습에 3,003분이 소요됩니다. 반면 0.245M개의 파라미터를 가진 어텐션 전용 절제 모델은 2.17분 만에 학습을 마칩니다. 정확도는 대등하거나 더 좋으면서 약 1,383배의 속도 향상을 기록한 것입니다.
  • 11개의 데이터셋 비교 중 8개에서 무작위로 초기화된 LLM이 사전 학습된 모델보다 나은 성능을 보였습니다. 이는 텍스트로 사전 학습된 가중치가 결과적으로 부정적인 영향을 미친다는 것을 의미합니다.
  • 퓨샷(few-shot) 설정(학습 데이터 10%)에서 Time-LLM과 LLM이 없는 절제 모델은 각각 16개 사례 중 8개씩 승리했습니다. 이는 통계적으로 구분이 불가능한 수준으로, LLM 도입을 정당화하기 위해 흔히 사용되는 퓨샷 인자 논리를 반박합니다.
  • 전체 시계열 시퀀스를 섞는 실험(shuffling)에서 LLM 기반 모델과 어텐션 전용 모델 모두 성능이 비슷하게 저하되었습니다. 이는 두 아키텍처 모두 순차적인 시간 구조를 안정적으로 포착하지 못함을 시사합니다.
  • 단순한 PAttn 베이스라인(패칭과 단일 어텐션 레이어 조합)은 추론 비용이 수십 분의 일에 불과하면서도 모든 데이터셋에서 전체 LLM 방식과 대등한 성능을 보였습니다.

유효한 점과 그렇지 않은 점

분석 설계는 원칙적입니다. 저자들은 패칭, 정규화, 헤드 등 다른 모든 요소는 고정시킨 채 오직 LLM 구성 요소만 교체했기 때문에 비교가 명확합니다. 코드는 공개되어 있습니다. 1,383배의 속도 향상과 정확도 손실 없음이라는 컴퓨팅 효율성 발견만으로도 실제 운영 환경에서 LLM 기반 모델을 사용해야 할 논거를 찾기 어렵게 만듭니다.

이 논문이 열어둔 과제는 LLM이 도움이 되지 않는가 하는 점입니다. 섞기 실험은 모델이 시간순으로 정렬된 시리즈와 뒤섞인 시리즈를 구분하지 못함을 보여주었지만, 이러한 병폐는 LLM뿐만 아니라 절제 모델에서도 나타났습니다. 이 실패는 언어 모델 고유의 결함이라기보다 패치 기반 트랜스포머가 시계열을 처리하는 방식에 내재된 더 깊은 특성 때문일 수 있습니다. 저자들은 이를 암시하지만 깊게 파고들지는 않습니다.

범위 또한 한정적입니다. 세 가지 방법 모두 2022~2023년의 고정되거나 가볍게 조정된 LLM(GPT-2, LLaMA-7B)을 사용합니다. Chronos, TimesFM과 같이 수치 데이터를 다르게 토큰화하여 시계열용으로 특별히 제작된 모델은 포함되지 않았습니다. 회의적인 시각에서는 이 비판이 수치 데이터용 LLM 일반이 아니라, 수정 없이 NLP 아키텍처를 재활용하는 특정 설계 패턴에 국한된 것이라고 주장할 수 있습니다.

금융 AI에 시사하는 바

내달 잔액 예측, 연간 세금 추정, 현금 흐름 공백 식별과 같은 Beancount 예측 작업에 있어 이 논문은 가벼운 전용 수치 모델의 손을 들어줍니다. 컴퓨팅 격차는 이론적인 수준이 아닙니다. 개인 원장에 대해 롤링 예측을 수행하는 에이전트가 Time-LLM의 추론 오버헤드를 감당할 수는 없습니다.

더 날카로운 함의도 있습니다. 시퀀스 구조에 대한 발견은 원장 항목을 단순히 토큰으로 취급하고 모델이 문맥만으로 시간적 순서를 추론하기를 기대하는 모든 에이전트가 위태로운 기반 위에 있다는 점을 시사합니다. 모델이 뒤섞인 것과 정렬된 것을 구분하지 못한다면, 시간적 패턴 매칭은 사전 학습에서 창발되기를 기대할 것이 아니라 위치 인코딩, 추세-계절성 분해 또는 전용 아키텍처를 통해 명시적으로 설계되어야 합니다.

다만 과도한 일반화는 위험합니다. Tan 등의 비판은 수치적 외삽(numerical extrapolation)에 좁게 맞춰져 있습니다. 이상 징후 설명, "왜 3월에 식비 지출이 급증했는가"에 대한 답변, 원장의 서술형 메모 감사 등 자연어가 포함된 작업에서 LLM은 여전히 진정한 가치를 제공합니다. 실수는 "LLM이 시계열을 외삽할 수 없다"를 "LLM이 금융을 추론할 수 없다"와 혼동하는 것입니다. 이들은 서로 다른 영역이며, Bean Labs에는 두 가지 능력이 모두 필요합니다.

더 읽어보기

  • TimesFM: "A decoder-only foundation model for time-series forecasting" (Das et al., ICML 2024, arXiv:2310.10688) — 1,000억 개의 실제 시간 데이터를 사전 학습한 구글의 2억 파라미터 모델. NLP를 재활용한 것이 아니라 예측을 위해 처음부터 제작되었으며, 문제가 LLM 자체인지 아니면 재활용 방식인지를 확인하는 직접적인 시험대가 됩니다.
  • Chronos: "Learning the Language of Time Series" (Ansari et al., TMLR 2024, arXiv:2403.07815) — 수치 값을 이산 어휘로 토큰화하고 시계열 데이터에서 처음부터 T5 기반 모델을 학습시킨 아마존의 접근 방식. GPT 기반 예측기보다 PatchTST의 정신에 더 가까우며 42개 벤치마크에서 강력한 제로샷 결과를 달성했습니다.
  • PatchTST: "A Time Series is Worth 64 Words" (Nie et al., ICLR 2023, arXiv:2211.14730) — 이 논문에서 분석된 대부분의 LLM 래퍼의 기반이 되는 패칭 및 채널 독립성 설계. 이를 이해하면 OneFitsAll과 Time-LLM에서 실제로 어떤 구성 요소가 핵심적인 역할을 수행하는지 명확히 알 수 있습니다.