본문으로 건너뛰기

LLM을 활용한 제로샷 이상 탐지: GPT-4의 정형 데이터 성능 분석

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

지난달에 읽은 AuditCopilot 논문은 라벨링된 이상 데이터로 파인튜닝하여 분개장 항목의 부정 탐지 성능을 벤치마킹했습니다. 그 이후로 저는 라벨링된 이상치나 도메인 특화 파인튜닝 없이 제로샷 프롬프팅만으로 어느 정도 성과를 낼 수 있을지 궁금해졌습니다. 이것이 바로 Li, Zhao, Qiu, Kloft, Smyth, Rudolph, Mandt가 작성한 2024년 중반 워크숍 논문인 "Anomaly Detection of Tabular Data Using LLMs"(arXiv:2406.16308)가 약속하는 바입니다. GPT-4가 ECOD와 같은 기존의 전이 학습(transductive) 방식과 맞먹는다는 핵심 결과는 믿기 힘들 정도로 좋아 보였기에, 저는 이 논문을 면밀히 읽어보았습니다.

논문 소개

2026-06-21-anomaly-detection-tabular-data-llms

핵심 아이디어는 저자들이 "배치 수준(batch-level)" 이상 탐지라고 부르는 방식입니다. 훈련 데이터에 모델을 맞춘 후 테스트 포인트를 개별적으로 점수 매기는 대신, 추론 시점에 LLM에게 N개 행의 배치를 제시하고 동일한 배치 내의 다른 행들과 비교하여 어떤 행이 이상한지 식별하도록 요청하는 것입니다. 어떤 배치 내에서도 이상치는 희소하기 때문에, 충분히 유능한 모델이라면 대다수의 패턴을 암묵적으로 인식하고 이상치를 찾아낼 수 있어야 합니다. 재훈련도, 라벨링된 예시도 필요 없이 오직 LLM의 사전 학습된 지식과 문맥 내 추론(in-context reasoning)만을 이용합니다.

연구진은 실제 정형 데이터 이상 탐지 문제의 표준 모음인 32개의 ODDS 벤치마크 데이터셋에서 이를 평가했습니다. 컨텍스트 윈도우의 제한으로 인해 각 평가 배치는 150행과 10개 열로 제한되었습니다. 특징(feature)들은 "Data i is x_i."라는 템플릿을 사용하여 한 번에 한 차원씩 직렬화되며, LLM은 각 차원별로 이상한 인덱스를 지목하도록 프롬프트를 받습니다. 행의 최종 이상 점수는 얼마나 많은 차원에서 해당 행이 지목되었는지를 합산하여 결정됩니다.

상용 모델의 경우 제로샷으로 테스트했습니다. 오픈 소스 모델(Llama2-7B, Llama2-70B, Mistral-7B)의 경우 제로샷 성능이 좋지 않아, 실제 이상치 라벨이 필요 없는 가우시안 혼합 및 범주형 분포에서 생성된 5,000개 배치의 합성 데이터셋으로 파인튜닝을 제안했습니다. 이렇게 파인튜닝된 버전은 Llama2-AD 및 Mistral-AD로 불립니다.

주요 개념

  • GPT-4 제로샷은 32개 ODDS 데이터셋에서 평균 AUROC 74.1을 기록했으며, 이는 가장 우수한 기존 베이스라인인 ECOD의 75.5와 KNN의 70.7에 비견됩니다. GPT-3.5는 68.3으로 뒤처졌습니다.
  • Llama2-7B 제로샷 점수는 51.1로 사실상 무작위 수준이었으나, 합성 데이터로 파인튜닝한 후에는 60.0으로 8.9포인트 상승했습니다. Mistral-7B는 62.4에서 69.1로 6.7포인트 향상되었습니다.
  • "배치 수준" 프레임워크는 흥미로운 개념적 시도입니다. LLM은 클래스를 분리하도록 훈련된 판별기가 아니라 배치에 대한 암묵적인 밀도 추정기(density estimator) 역할을 수행합니다.
  • 파인튜닝은 합성 가우시안 및 범주형 데이터에 대해서만 LoRA를 사용하며, 실제 이상치 주석은 필요하지 않습니다. 이것이 일반화될 수 있다면 실무적으로 매우 큰 장점입니다.
  • 오픈 소스 모델의 경우 출력 파싱이 까다롭습니다. 저자들은 문법 제약을 강제하고 정규표현식 패턴을 사용하여 이상치 인덱스를 추출했습니다.

유효한 점과 그렇지 않은 점

벤치마크 범위가 가장 큰 문제입니다. 이 논문은 KNN과 ECOD라는 두 가지 고전적 베이스라인과만 비교했습니다. Isolation Forest, LOF, One-Class SVM 및 딥러닝 기반 이상 탐지 방법론은 완전히 배제되었습니다. ECOD가 ODDS에서 강력한 베이스라인이긴 하지만, GPT-4(74.1 vs 75.5)나 Mistral-AD(69.1)가 이를 명확히 압도하지는 못했습니다. 더 넓은 베이스라인과 비교했을 때 GPT-4가 우위를 유지할지는 불분명합니다.

150행 / 10열 제한 또한 논문에서 충분히 다루지 않은 심각한 제약입니다. 실제 회계 장부에는 수만 개의 거래와 훨씬 더 많은 특징이 있습니다. 배치 수준 접근 방식이 확장 가능할지, 아니면 더 다양하고 큰 패턴 속에서 이상치를 구분하기 어려워 성능이 저하될지는 테스트되지 않았습니다.

분산 수치도 우려스럽습니다. breastw 데이터셋에서 GPT-3.5의 AUROC는 63.1 ± 34.4를 기록했습니다. 단 한 번의 실행 결과가 30에서 98 사이의 어디든 나올 수 있는 방법론을 실제 업무에 도입할 수는 없습니다. GPT-4는 비교적 안정적이었으나(breastw에서 98.7 ± 0.5), 다른 데이터셋에서는 유사한 분산을 보였습니다.

특징 독립성 가정도 한계점입니다. LLM은 각 특징 차원을 개별적으로 쿼리하고 점수를 합산합니다. 따라서 결합된 특징 패턴에 대해서는 추론할 수 없습니다. 금액, 거래 상대방, 계정 코드의 조합이 비정상적인 거래라도 각 개별 차원에서는 정상으로 보일 수 있기 때문입니다. 회계에서 가장 흔하고 경제적으로 중요한 다차원 이상치는 이 접근 방식으로는 구조적 재설계 없이는 포착되지 않을 것입니다.

후속 연구들은 이러한 우려를 뒷받침합니다. Amazon Science의 AnoLLM(ICLR 2025)은 다른 접근 방식을 취합니다. 이상치 인덱스를 프롬프트로 묻는 대신, LLM이 데이터 분포를 모델링하도록 파인튜닝하고 음의 로그 가능도(negative log-likelihood)를 이상 점수로 사용하여 불안정한 출력 파싱 문제를 완전히 피했습니다. CausalTAD(arXiv:2602.07798, 2026년 2월)는 이 논문과 AnoLLM이 공유하는 또 다른 공백을 지적했습니다. 직렬화 과정에서 열의 순서가 무작위로 정해져 특징 간의 인과 관계가 무시된다는 점입니다. 인과 구조를 존중하도록 열 순서를 재배치한 결과, 6개 벤치마크에서 평균 AUC-ROC가 약 0.80에서 0.83으로 향상되었습니다.

재무 AI에 중요한 이유

이러한 한계에도 불구하고, 제로샷 방향은 Beancount 장부 이상 탐지에 있어 정말 흥미로운 지점입니다. AuditCopilot 논문은 라벨링된 이상 사례로 파인튜닝해야 했는데, 실제 사기 사례는 드물고 민감하며 라벨링에 전문 회계사가 필요하기 때문에 실무에서 확보하기 어렵습니다. 이 논문의 합성 파인튜닝 방식(Llama2-AD, Mistral-AD)은 이를 우회합니다. 실제 장부를 건드리지 않고도 인위적인 이상치가 포함된 현실적인 거래 배치를 생성하여 파인튜닝할 수 있기 때문입니다.

배치 수준 메커니즘은 회계사가 실제로 생각하는 방식과 잘 맞습니다. "이번 달 거래 중에서 다른 것들에 비해 유난히 눈에 띄는 항목은 무엇인가?" 이것이 바로 감사에서 분개 항목 테스트의 직관입니다. 과제는 실제 장부의 이상치가 다차원적이라는 점입니다. 금액은 정상이지만 시기, 거래처, 계정 코드의 조합이 비정상적인 결제 같은 것 말이죠. 이 논문처럼 각 특징을 독립적으로 쿼리해서는 이러한 사례를 잡을 수 없습니다.

제가 보고 싶은 것은 전체 행을 임베딩하고 총체적으로 점수를 매기는 방식(AnoLLM의 분포 모델링에 더 가까운)을 현실적인 Beancount 거래 데이터 샘플에 적용하는 것입니다. 합성 파인튜닝 아이디어는 진지하게 탐구해 볼 가치가 있습니다. 주입된 이상치(잘못된 계정, 중복 항목, 비현실적인 금액)가 포함된 합성 Beancount 장부 배치를 생성하는 것은 비교적 간단하며, 이를 통해 7B 모델을 파인튜닝하면 실제 라벨링된 데이터 없이도 유용한 제로샷 감사 도구를 만들 수 있을 것입니다.

더 읽어보기

  • AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; 인덱스 예측 대신 가능도 기반 점수 산출을 사용하는 이 연구의 직접적인 확장판입니다.
  • CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; 직렬화를 인과 구조에 맞춤으로써 열 순서 문제를 해결합니다.
  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; NLP 이상 탐지 과제를 다루는 더 넓은 벤치마크로, LLM이 이상 탐지기로서 신뢰할 수 있는 부분과 그렇지 않은 부분을 이해하는 데 유용합니다.