본문으로 건너뛰기

CausalTAD: LLM 정형 데이터 이상 탐지를 위한 인과적 열 순서 지정

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

이전 로그에서는 음의 로그 가능도(negative log-likelihood)를 통해 정형 데이터의 이상치를 점수화하도록 소형 LLM을 미세 조정하는 AnoLLM에 대해 다루었습니다. CausalTAD(arXiv:2602.07798)는 이에 대한 날카로운 후속 질문을 던집니다. LLM에 입력되는 열의 순서가 중요할까요? 결론부터 말하자면 '그렇다'입니다. 순서 지정에 인과적 구조를 주입하면 일관되고 재현 가능한 성능 향상을 얻을 수 있습니다.

논문 소개

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

Wang 등은 AnoLLM 스타일의 LLM 이상 탐지기 위에서 작동하며 한 가지 핵심적인 변화를 주는 방법론인 CausalTAD를 제안합니다. 정형 데이터의 행을 무작위나 임의의 열 순서로 직렬화하는 대신, 열 간의 인과적 의존성을 발견하고 LLM이 행을 읽기 전에 해당 의존성을 반영하여 열 순서를 재정렬합니다.

이 논문은 두 가지 핵심 부분으로 구성됩니다. 첫째는 인과 중심의 열 순서 지정 모듈입니다. 저자들은 COAT 요인 추출 프레임워크를 수정하여 사용합니다. LLM이 열 메타데이터와 샘플을 읽어 고수준의 의미론적 요인(semantic factors)을 추출합니다(예: 신용카드 거래에서 '보상'이라는 요인은 금액과 가맹점 열을 포괄할 수 있습니다). 이러한 요인들로부터 PC, LiNGAM, FCI라는 세 가지 인과 발견 알고리즘이 각각 요인에 대한 유향 인과 그래프를 구축합니다. 그러면 열 재정렬 문제는 선형 순서 지정 문제(Linear Ordering Problem)가 됩니다. 즉, 직렬화된 텍스트에서 원인 열이 결과 열보다 먼저 나타나도록 유향 에지의 가중치 합을 최대화하는 순열 π를 찾는 것입니다. LP(선형 계획법)에는 최적에 가까운 해가 많기 때문에, 최적값의 90% 이내에 있는 약 K ≈ 10개의 순서를 샘플링하여 평균을 냅니다.

둘째는 인과 인식 가중치 재설정 모듈입니다. 모든 열이 동일하게 중요한 것은 아닙니다. 많은 요인에 영향을 미치는 열은 더 높은 가중치 αj = |M⁻¹(cj)|(해당 열이 기여하는 요인의 수)를 갖게 됩니다. 최종 이상치 점수는 K개의 순서에 걸친 열별 음의 로그 가능도의 가중 평균으로 산출됩니다.

핵심 아이디어

  • 열 순서는 자기 회귀(autoregressive) LLM에게 중요한 귀납적 편향(inductive bias)입니다. 결과 열보다 원인 열을 먼저 배치하면 모델이 결과의 가능도를 할당할 때 올바른 문맥을 조건화할 수 있습니다.
  • 원래의 열 수준이 아닌 요인 수준에서 인과 관계를 발견함으로써, 서로 다른 유형의 열 사이에서 직접적인 인과 발견이 어려워 노이즈가 발생하는 혼합 유형 테이블을 효과적으로 처리할 수 있습니다.
  • 6개의 혼합 유형 벤치마크 데이터셋에서 SmolLM-135M을 사용한 CausalTAD는 평균 AUC-ROC 0.834를 기록하며 AnoLLM의 0.803 대비 3.1포인트의 절대적 성능 향상을 보였습니다(동일한 백본 모델 사용).
  • 특히 Fake Job Posts 데이터셋에서 CausalTAD는 0.873점을 기록하여 AnoLLM의 0.800 대비 9.1%의 상대적 이득을 얻었습니다. 이는 실제 분류 시스템에서 유의미한 차이입니다.
  • 30개의 수치형 ODDS 벤치마크 데이터셋 전체에서 CausalTAD는 가장 높은 평균 AUC-ROC를 달성하며 고전적 베이스라인(Isolation Forest, ECOD, KNN) 및 딥러닝 방법론(DeepSVDD, SLAD)을 일관되게 압도했습니다.
  • 어블레이션 연구(ablation study)에서 세 가지 인과 발견 알고리즘 모두 무작위 순서보다 우수한 성능을 보였으며, 혼합 데이터셋에서는 LiNGAM이 PC와 FCI를 약간 앞섰습니다.

장단점 분석

인과적 열 순서가 도움이 된다는 핵심 주장은 충분히 뒷받침됩니다. 어블레이션 결과는 명확합니다. 무작위 순서를 세 가지 인과 발견 방법 중 하나로 교체하면 Fake Job Posts 벤치마크 결과가 개선되었으며(0.832에서 0.870–0.873으로), 요인 수 기반 가중치 재설정은 모든 구성에서 추가적인 도움이 되었습니다. 이는 신뢰할 만한 결과입니다.

덜 설득력 있게 느껴지는 부분은 부트스트래핑(bootstrapping) 가정입니다. 인과 그래프는 시스템이 분석하려는 바로 그 데이터에서 LLM을 사용해 의미론적 요인을 추출함으로써 구성됩니다. 만약 LLM이 도메인을 오해한다면(예: 비표준 열 이름을 사용하는 맞춤형 회계 시스템의 경우), 요인 추출이 틀릴 것이고, 잘못된 인과 그래프는 체계적인 편향을 유발하므로 무작위 순서보다 더 나쁠 수 있습니다. 저자들도 이러한 위험('요인 추출을 위한 LLM의 능력에 의존함')을 인정하고 있지만, 요인 추출 정확도를 독립적으로 벤치마킹하지는 않았습니다.

또한 논문에서 제시하는 것보다 더 심각한 계산 오버헤드 문제가 있습니다. 세 가지 인과 발견 알고리즘을 실행하고, LP를 풀고, K개의 순서를 샘플링한 다음, 모든 테스트 포인트의 K개 직렬화 버전에 대해 추론을 실행하면 추론 비용이 K배로 증가합니다. 수백만 개의 항목이 있는 장부의 경우 이는 매우 중요한 문제입니다. 논문은 "향후 연구에서 효율성 개선에 집중할 수 있다"고 언급하지만 구체적인 프로파일링은 제공하지 않습니다.

마지막으로, 30개의 수치형 ODDS 데이터셋은 이미 연구가 많이 되어 이러한 방법론들에 대해 포화 상태라고 볼 수 있습니다. 더 의미 있는 신호는 금융 분야에서 현실적인 6개의 혼합 유형 데이터셋에 있으며, 여기서의 개선 사항은 실질적이긴 하지만 절대적인 수치 면에서는 다소 완만합니다.

금융 AI에서 중요한 이유

Beancount 거래는 진정한 인과 구조를 가지고 있습니다. 기입 금액(amount)은 계정(account) 선택을 인과적으로 유도하고, 계정은 상대방(counterparty)에 대한 기대를 유도하며, 적요(memo) 텍스트는 이 세 가지 모두의 인과적 하류에 있습니다. 무작위 열 직렬화는 이를 무시하므로, AnoLLM 스타일의 모델은 "memo: groceries | account: Expenses:Food | amount: $4200"를 올바른 순서의 버전과 다름없이 처리하게 됩니다.

CausalTAD는 "금액과 계정이 먼저 온다"는 사실을 규칙으로 하드코딩하지 않고도 인코딩할 수 있는 원칙적인 방법을 제공합니다. Bean Labs 감사 에이전트의 경우, 이는 실용적인 아키처 선택을 시사합니다. 한 배치의 거래에 대해 이상 탐지 점수를 매기기 전, 장부의 열 스키마에 대한 인과 그래프를 찾는 과정을 한 번 거친 후 이후의 모든 추론에 해당 고정 순서를 사용하는 것입니다. 이렇게 하면 오버헤드는 거래별이 아닌 스키마 수준에서 한 번만 발생합니다.

논문의 신용카드 부정 탐지 예시는 장부 이상 탐지와 본질적으로 동일한 작업 구조를 가집니다. 이질적인 특징들, 희귀한 레이블, 그리고 도메인 전문가들은 직관적으로 알지만 LLM은 무시할 수 있는 인과적 순서 등이 그렇습니다.

더 읽어볼 거리

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — CausalTAD가 속한 세 가지 LLM 이상 탐지 패러다임에 대한 체계적인 벤치마크입니다. 단일한 AnoLLM vs CausalTAD 비교보다는 전체적인 지형을 파악할 수 있게 해줍니다.
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — CausalTAD가 차용한 요인 추출 프레임워크입니다. 이 작동 방식을 이해하면 인과 그래프 품질이 저하될 수 있는 지점을 명확히 알 수 있습니다.
  • Causal discovery in heterogeneous data: a survey — 혼합 유형 정형 데이터에서 PC vs LiNGAM vs FCI의 상대적 장점을 이해하는 데 도움이 됩니다. 논문에서는 세 가지를 상호 교체 가능한 것으로 취급하지만, 각각 서로 다른 독립성 가정을 가집니다.