본문으로 건너뛰기

AnoLLM: 금융 데이터의 정형 변칙 탐지를 위한 LLM 미세 조정

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

2일 전에 읽은 제로샷 LLM 변칙 탐지 논문(arXiv:2406.16308)은 GPT-4가 별도의 훈련 없이도 ODDS 벤치마크에서 ECOD와 같은 고전적인 기준선(baselines)에 필적하는 정형 이상치를 식별할 수 있음을 보여주었습니다. 하지만 명백한 약점이 있었습니다. 모델에게 변칙적인 행 인덱스 목록을 출력하도록 요청하는 방식은 매우 취약하다는 점입니다. 오픈 소스 모델은 일상적으로 인덱스에 대해 환각(hallucination)을 일으키거나, 범위를 벗어나거나, 혹은 모든 행을 의심스러운 것으로 표시하곤 합니다. 아마존의 Che-Ping Tsai, Ganyu Teng, Phillip Wallis, Wei Ding이 ICLR 2025에 발표한 AnoLLM은 이러한 취약성을 해결하는 동시에, 순수 수치형 기준선이 고전하는 혼합형 데이터셋 영역으로 영역을 확장했습니다.

논문 내용

2026-06-24-anollm-llm-fine-tuning-tabular-anomaly-detection

AnoLLM은 정형 변칙 탐지를 프롬프트 기반 분류가 아닌 언어 모델 밀도 추정으로 재정의합니다. LLM에게 어떤 행이 의심스러운지 묻는 대신, 저자들은 사전 훈련된 언어 모델을 직렬화된 분포 내(정상) 훈련 행 데이터로 미세 조정(fine-tuning)한 다음, 학습된 분포 하에서의 음의 로그 가능도(Negative Log-Likelihood, NLL)를 통해 각 테스트 행의 점수를 매깁니다. 훈련 분포와 전혀 닮지 않은 행은 높은 NLL을 갖게 되며, 이것이 곧 변칙 점수가 됩니다. 인덱스 형식도, 출력 파싱도, 취약한 정규식 추출도 필요 없습니다.

직렬화 과정은 각 테이블 행을 특성(feature) 이름과 값이 포함된 자연어 문자열로 변환합니다. 텍스트 값 컬럼의 경우, 긴 설명이 기계적으로 더 높은 확률 비용을 축적하는 길이 편향을 피하기 위해 컬럼별로 NLL을 정규화합니다. 수치형 및 범주형 컬럼의 경우, 가공되지 않은 토큰 수준의 NLL을 필드 전체에 걸쳐 합산합니다. 모델은 준지도 학습(semi-supervised) 설정에서 미세 조정됩니다. 즉, 정상으로 레이블이 지정된 행만 훈련에 사용되며, 분산 GPU 훈련을 통해 최대 2,000단계까지 수행됩니다.

핵심 아이디어

  • 출력 형식 문제: 이전의 인덱스 예측 접근 방식은 LLM이 배치에서 변칙적인 행 인덱스를 안정적으로 출력해야 했습니다. Llama 계열 모델은 종종 잘못된 인덱스와 값을 짝지거나, 배치 크기를 벗어난 인덱스를 생성하거나, 단순히 모든 것을 변칙으로 나열하곤 합니다. NLL은 이 문제를 완전히 우회합니다.
  • AnoLLM은 Kaggle의 자동차 보험 사기 탐지 및 전자상거래 사기 데이터셋을 포함하여, 혼합 특성 유형을 가진 6개의 벤치마크 데이터셋에서 최고의 성능을 달성했습니다.
  • 수치 데이터가 주를 이루는 30개의 ODDS 벤치마크 데이터셋에서 AnoLLM은 최상위 고전 기준선들과 대등한 성능을 보였습니다. 확연히 더 낫다기보다는 경쟁력이 있는 수준입니다.
  • 텍스트 특성에 대한 컬럼별 NLL 정규화는 작지만 핵심적인 엔지니어링 결정입니다. 이 과정이 없다면 30개 토큰으로 된 거래 설명이 두 자리 숫자의 금액보다 점수를 압도하게 되는데, 이는 잘못된 귀납적 편향(inductive bias)입니다.
  • 훈련 기준선 문맥: 제로샷 GPT-4 방식(arXiv:2406.16308)은 ODDS에서 평균 AUROC 74.1을 달성하며, 이는 ECOD(75.5) 및 KNN(70.7)과 비슷합니다. AnoLLM의 장점은 특히 텍스트와 범주형 특성이 유의미한 변칙 신호를 담고 있는 데이터셋에서 두드러집니다.

장점과 한계

핵심적인 NLL 아이디어는 타당합니다. 미세 조정된 언어 모델을 직렬화된 행에 대한 밀도 추정기로 사용하는 것은 원칙적이며, 고전적인 비지도 탐지기가 컬럼별로 적용될 때 깔끔하게 처리하지 못하는 모든 컬럼의 결합 분포(joint distribution)를 자연스럽게 동시에 처리합니다. 인덱스 예측 문제에 대한 해결책은 진정으로 유용하며 제로샷 기준선과의 비교도 공정합니다.

아쉬운 점은 논문에서 충분히 다루지 않은 비용 대비 편익의 격차입니다. AnoLLM은 추론을 위해 LLM을 미세 조정하고 서빙해야 하는데, 이는 CPU에서 수초 만에 ECOD나 IsolationForest를 실행하는 것에 비해 상당한 인프라 투자를 필요로 합니다. ODDS 벤치마크(순수 수치형)에서 AnoLLM은 더 나은 것이 아니라 단지 "대등한" 수준입니다. 따라서 AnoLLM의 가치는 전적으로 혼합형 데이터 영역에 있는데, 평가된 6개의 데이터셋은 모두 Kaggle의 사기 탐지 데이터입니다. 6개의 데이터셋은 강력한 추천을 뒷받침하기에는 빈약한 경험적 기반이며, 특히 Kaggle의 데이터셋은 깨끗한 스키마, 고정된 컬럼 의미론, 알려진 정답(ground truth)을 갖는 경향이 있습니다. 이는 실제 운영 환경의 장부 데이터가 종종 결여하고 있는 요소들입니다.

컬럼 순서 문제 또한 미결 과제로 남아 있습니다. CausalTAD(arXiv:2602.07798)는 즉시 이 간극을 식별했습니다. AnoLLM은 필드 간의 인과 관계를 무시하고 임의의 순서로 컬럼을 직렬화합니다. 계정 유형이 유효한 거래 범위를 결정하고, 이것이 예상 거래 상대방에 영향을 미치는 것과 같이 인과 관계가 명확한 구조화된 데이터에서 이는 실질적인 한계입니다. CausalTAD는 순서 재배치를 선형 순서화 문제로 프레이밍하고 30개 이상의 데이터셋에서 AnoLLM보다 일관된 개선을 보고했습니다. 이러한 간극이 존재하고 빠르게 발견되었다는 것은 AnoLLM의 직렬화 설계가 완전히 숙고되지 않았음을 시사합니다.

논문에서 다루지 않은 규모의 문제도 있습니다. 어느 정도 규모의 정상 훈련 예시가 있어야 수치 특성에 직접 훈련된 정형 딥러닝 모델보다 LLM 미세 조정이 더 가치 있게 될까요? 수천 개의 항목이 있는 개인 Beancount 장부의 경우, 컴퓨팅 비용이 정확도 이득을 쉽게 압도할 수 있습니다.

금융 AI에서 이것이 중요한 이유

Beancount 장부 항목은 금액(수치형), 계정 이름(구조화된 텍스트), 수취인/설명(자유 텍스트), 태그(범주형), 날짜(구조화된 데이터) 등 AnoLLM이 목표로 하는 혼합형 데이터의 전형적인 예입니다. 2024-03-15 * "AWS" "Cloud invoice" Assets:Checking -$2,400과 같은 단일 행은 이 모든 유형의 정보를 동시에 인코딩합니다. 고전적인 변칙 탐지기는 각 컬럼 유형을 별도로 처리해야 하고, "AWS" 인보이스는 특정 범위 내에 있어야 하며 특정 계정으로 처리되어야 한다는 결합된 패턴인 컬럼 간의 상관관계를 놓치기 때문에 이 영역에서 어려움을 겪습니다.

AnoLLM의 NLL 접근 방식은 원칙적으로 과거의 정상 항목으로부터 이러한 결합 패턴을 학습하고 모든 컬럼 조합에 걸쳐 편차를 찾아낼 수 있습니다. 이는 규칙 기반의 JET(장부 항목 테스트)나 단일 컬럼 통계 테스트보다 잠재적으로 더 유용합니다.

그렇기는 하지만, 복식 부기 제약 조건은 AnoLLM이 직렬화된 행만으로는 학습할 수 없는 구조적 지식입니다. 차변과 대변의 합은 같아야 하며, 계정 계층 구조는 준수되어야 합니다. 이러한 도메인 불변성(domain invariants)은 통계적 규칙성이 아닌 엄격한 제약 조건이며, 훈련 데이터에 예외나 반올림 오차(rounding artifacts)가 포함되어 있다면 아무리 많은 LLM 미세 조정을 거치더라도 이를 안정적으로 강제할 수 없습니다. 올바른 아키텍처는 아마도 의미론적 변칙을 위한 AnoLLM의 NLL 점수 산출과 구조적 변칙을 위한 명시적 규칙 검사를 결합하는 형태가 될 것입니다.

더 읽어볼 거리

  • CausalTAD (arXiv:2602.07798) — 인과적 컬럼 순서를 주입하여 AnoLLM을 직접적으로 개선한 연구로, 가장 즉각적인 후속 검토 대상입니다.
  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — 개별 방법론 논문에서 누락된 체계적인 다중 패러다임 평가를 제공합니다.
  • "Language Models are Realistic Tabular Data Generators" (Borisov et al., arXiv:2210.06280, ICLR 2023) — AnoLLM이 기준선으로 사용하는 BE-GREAT 모델입니다. 이를 이해하면 AnoLLM이 인덱스 예측 이상으로 개선한 점이 무엇인지 명확해집니다.