AnoLLM: 금융 데이터의 정형 변칙 탐지를 위한 LLM 미세 조정
2일 전에 읽은 제로샷 LLM 변칙 탐지 논문(arXiv:2406.16308)은 GPT-4가 별도의 훈련 없이도 ODDS 벤치마크에서 ECOD와 같은 고전적인 기준선(baselines)에 필적하는 정형 이상치를 식별할 수 있음을 보여주었습니다. 하지만 명백한 약점이 있었습니다. 모델에게 변칙적인 행 인덱스 목록을 출력하도록 요청하는 방식은 매우 취약하다는 점입니다. 오픈 소스 모델은 일상적으로 인덱스에 대해 환각(hallucination)을 일으키거나, 범위를 벗어나거나, 혹은 모든 행을 의심스러운 것으로 표시하곤 합니다. 아마존의 Che-Ping Tsai, Ganyu Teng, Phillip Wallis, Wei Ding이 ICLR 2025에 발표한 AnoLLM은 이러한 취약성을 해결하는 동시에, 순수 수치형 기준선이 고전하는 혼합형 데이터셋 영역으로 영역을 확장했습니다.
논문 내용
AnoLLM은 정형 변칙 탐지를 프롬프트 기반 분류가 아닌 언어 모델 밀도 추정으로 재정의합니다. LLM에게 어떤 행이 의심스러운지 묻는 대신, 저자들은 사전 훈련된 언어 모델을 직렬화된 분포 내(정상) 훈련 행 데이터로 미세 조정(fine-tuning)한 다음, 학습된 분포 하에서의 음의 로그 가능도(Negative Log-Likelihood, NLL)를 통해 각 테스트 행의 점수를 매깁니다. 훈련 분포와 전혀 닮지 않은 행은 높은 NLL을 갖게 되며, 이것이 곧 변칙 점수가 됩니다. 인덱스 형식도, 출력 파싱도, 취약한 정규식 추출도 필요 없습니다.
직렬화 과정은 각 테이블 행을 특성(feature) 이름과 값이 포함된 자연어 문자열로 변환합니다. 텍스트 값 컬럼의 경우, 긴 설명이 기계적으로 더 높은 확률 비용을 축적하는 길이 편향을 피하기 위해 컬럼별로 NLL을 정규화합니다. 수치형 및 범주형 컬럼의 경우, 가공되지 않은 토큰 수준의 NLL을 필드 전체에 걸쳐 합산합니다. 모델은 준지도 학습(semi-supervised) 설정에서 미세 조정됩니다. 즉, 정상으로 레이블이 지정된 행만 훈련에 사용되며, 분산 GPU 훈련을 통해 최대 2,000단계까지 수행됩니다.
핵심 아이디어
- 출력 형식 문제: 이전의 인덱스 예측 접근 방식은 LLM이 배치에서 변칙적인 행 인덱스를 안정적으로 출력해야 했습니다. Llama 계열 모델은 종종 잘못된 인덱스와 값을 짝지거나, 배치 크기를 벗어난 인덱스를 생성하거나, 단순히 모든 것을 변칙으로 나열하곤 합니다. NLL은 이 문제를 완전히 우회합니다.
- AnoLLM은 Kaggle의 자동차 보험 사기 탐지 및 전자상거래 사기 데이터셋을 포함하여, 혼합 특성 유형을 가진 6개의 벤치마크 데이터셋에서 최고의 성능을 달성했습니다.
- 수치 데이터가 주를 이루는 30개의 ODDS 벤치마크 데이터셋에서 AnoLLM은 최상위 고전 기준선들과 대등한 성능을 보였습니다. 확연히 더 낫다기보다는 경쟁력이 있는 수준입니다.
- 텍스트 특성에 대한 컬럼별 NLL 정규화는 작지만 핵심적인 엔지니어링 결정입니다. 이 과정이 없다면 30개 토큰으로 된 거래 설명이 두 자리 숫자의 금액보다 점수를 압도하게 되는데, 이는 잘못된 귀납적 편향(inductive bias)입니다.
- 훈련 기준선 문맥: 제로샷 GPT-4 방식(arXiv:2406.16308)은 ODDS에서 평균 AUROC 74.1을 달성하며, 이는 ECOD(75.5) 및 KNN(70.7)과 비슷합니다. AnoLLM의 장점은 특히 텍스트와 범주형 특성이 유의미한 변칙 신호를 담고 있는 데이터셋에서 두드러집니다.
장점과 한계
핵심적인 NLL 아이디어는 타당합니다. 미세 조정된 언어 모델을 직렬화된 행에 대한 밀도 추정기로 사용하는 것은 원칙적이며, 고전적인 비지도 탐지기가 컬럼별로 적용될 때 깔끔하게 처리하지 못하는 모든 컬럼의 결합 분포(joint distribution)를 자연스럽게 동시에 처리합니다. 인덱스 예측 문제에 대한 해결책은 진정으로 유용하며 제로샷 기준선과의 비교도 공정합니다.
아쉬운 점은 논문에서 충분히 다루지 않은 비용 대비 편익의 격차입니다. AnoLLM은 추론을 위해 LLM을 미세 조정하고 서빙해야 하는데, 이는 CPU에서 수초 만에 ECOD나 IsolationForest를 실행하는 것에 비해 상당한 인프라 투자를 필요로 합니다. ODDS 벤치마크(순수 수치형)에서 AnoLLM은 더 나은 것이 아니라 단지 "대등한" 수준입니다. 따라서 AnoLLM의 가치는 전적으로 혼합형 데이터 영역에 있는데, 평가된 6개의 데이터셋은 모두 Kaggle의 사기 탐지 데이터입니다. 6개의 데이터셋은 강력한 추천을 뒷받침하기에는 빈약한 경험적 기반이며, 특히 Kaggle의 데이터셋은 깨끗한 스키마, 고정된 컬럼 의미론, 알려진 정답(ground truth)을 갖는 경향이 있습니다. 이는 실제 운영 환경의 장부 데이터가 종종 결여하고 있는 요소들입니다.
컬럼 순서 문제 또한 미결 과제로 남아 있습니다. CausalTAD(arXiv:2602.07798)는 즉시 이 간극을 식별했습니다. AnoLLM은 필드 간의 인과 관계를 무시하고 임의의 순서로 컬럼을 직렬화합니다. 계정 유형이 유효한 거래 범위를 결정하고, 이것이 예상 거래 상대방에 영향을 미치는 것과 같이 인과 관계가 명확한 구조화된 데이터에서 이는 실질적인 한계입니다. CausalTAD는 순서 재배치를 선형 순서화 문제로 프레이밍하고 30개 이상의 데이터셋에서 AnoLLM보다 일관된 개선을 보고했습니다. 이러한 간극이 존재하고 빠르게 발견되었다는 것은 AnoLLM의 직렬화 설계가 완전히 숙고되지 않았음을 시사합니다.
논문에서 다루지 않은 규모의 문제도 있습니다. 어느 정도 규모의 정상 훈련 예시가 있어야 수치 특성에 직접 훈련된 정형 딥러닝 모델보다 LLM 미세 조정이 더 가치 있게 될까요? 수천 개의 항목이 있는 개인 Beancount 장부의 경우, 컴퓨팅 비용이 정확도 이득을 쉽게 압도할 수 있습니다.