LLM 이상 탐지 서베이 (NAACL 2025): 강력한 분류 체계, 부족한 정형 데이터 커버리지
이 스레드의 이전 세 게시물에서는 정형 데이터(tabular data) 이상 탐지를 구체적으로 목표로 하는 AnoLLM, CausalTAD 및 AD-LLM을 다루었습니다. NAACL 2025 Findings에 수락된 Ruiyao Xu와 Kaize Ding의 이 서베이 논문은 이러한 흐름을 하나의 통합된 지도로 묶어줄 것으로 기대되었습니다. 설계 공간을 명확히 해줄 분류 체계를 기대했지만, 제가 확인한 것은 대부분 일반론을 덧칠한 이미지 및 비디오 이상 탐지에 관한 서베이였습니다.
논문 요약
Xu와 Ding의 서베이(arXiv:2409.01980)는 LLM 기반 이상 및 분포 외(OOD) 탐지를 두 가지 상위 클래스로 구성할 것을 제안합니다. 첫 번째는 모델이 이상 징후를 직접 식별하는 **탐지를 위한 LLM(LLMs for Detection)**이고, 두 번째는 모델이 훈련 데이터를 보강하거나 하류(downstream) 탐지기에 입력될 자연어 설명을 생성하는 **생성을 위한 LLM(LLMs for Generation)**입니다. 각 클래스는 다시 세분화됩니다. 탐지는 프롬프팅 기반 방식(자연어 프롬프트로 쿼리되는 고정되거나 튜닝된 LLM)과 대조 기반 방식(이미지 패치를 텍스트 설명과 비교하여 이상 점수를 매기는 CLIP 계열 모델)으로 나뉩니다. 생성은 증강 중심 방식(의사 OOD 레이블 또는 합성 소수 샘플 생성)과 설명 중심 방식(플래그가 지정된 이벤트에 대한 자연어 근거 생성)으로 나뉩니다.
동반된 GitHub 읽기 목록은 약 39개의 논문을 다루고 있습니다: 탐지 24개, 증강 10개, 설명 5개입니다.
핵심 아이디어
- 대조 기반 방식이 이미지 이상 탐지를 주도하고 있습니다. WinCLIP은 데이터셋별 튜닝 없이도 MVTec-AD에서 제로샷 이상 분류 및 세분화(segmentation)에 대해 각각 91.8% 및 85.1%의 AUROC를 달성했으며, 이는 해당 데이터셋으로 학습된 지도 학습 방식과 경쟁할 수 있는 수준입니다.
- 고정된 LLM은 텍스트가 아닌 데이터에서 모달리티 격차(modality gap)에 부딪힙니다. 서베이는 "다양한 데이터 유형에 대해 이상 또는 OOD 탐지 결과를 얻기 위해 고정된 LLM을 직접 프롬프팅하는 것은 텍스트와 다른 데이터 모달리티 간의 내재적인 격차로 인해 종종 차선책의 성능을 낸다"고 명시적으로 언급합니다.
- LoRA 및 어댑터 튜닝은 이러한 격차를 상당 부분 해소합니다. AnomalyGPT 및 AnomalyCLIP과 같은 방법은 파라미터 효율적인 기법으로 미세 조정을 수행하며, 고정된 모델보다 훨씬 뛰어난 성능을 보입니다.
- 증강으로서의 생성은 아직 충분히 활용되지 않고 있습니다. BLIP-2로 생성된 캡션 수준의 의사 OOD 레이블은 OOD 탐지에서 단어 수준이나 설명 수준의 대안보다 우수한 성능을 보였으며, 이는 시각적 작업에서도 더 풍부한 텍스트 감독이 중요하다는 것을 시사합니다.
- 설명 중심 생성은 가장 새로운 하위 범주입니다. Holmes-VAD 및 VAD-LLaMA와 같은 시스템은 단순한 이진 플래그를 넘어 주로 감시 비디오에서 발생하는 이상 이벤트에 대한 자연어 근거를 생성합니다.
- 정형 데이터는 거의 다뤄지지 않습니다. 이 서베이는 정형 데이터 행을 텍스트 프롬프트로 변환하고 LoRA로 미세 조정하는 Li 등(2024)의 "Tabular"라는 단 하나의 방법만을 인용하고 있으며, 비교 수치는 제공하지 않습니다.
유효한 점과 그렇지 않은 점
두 가지 클래스로 나뉜 분류 체계는 정말 깔끔하며 저도 제 생각을 정리하는 데 사용할 것 같습니다. 탐지 대 생성의 구분은 실제 아키텍처의 분기점을 잘 포착하고 있습니다. LLM에 직접 분류를 요청하거나, 전통적인 탐지기를 위한 더 나은 학습 신호를 구축하는 데 LLM을 사용하는 것입니다.
하지만 이 논문을 광범위한 이상 탐지 서베이로 프레임화한 점 은 받아들이기 어렵습니다. 다루는 내용이 산업용 결함 이미지(MVTec-AD, VisA)와 감시 비디오(UCF-Crime, XD-Violence)에 압도적으로 집중되어 있습니다. 분류된 약 39개의 논문 중 정형 데이터나 금융 데이터를 다루는 논문은 거의 없습니다. 시계열 데이터는 몇 번 인용되었고, 정형 데이터는 단 한 문장 언급됩니다. 이것은 Bean Labs를 위한 지형도가 아니라, 결함 탐지를 위해 CLIP을 사용하려는 컴퓨터 비전 연구자들을 위한 지형도입니다.
저자들은 "지면 제약으로 인해 상세한 지표 요약을 생략한다"고 명시했는데, 이는 비교표가 없다는 말을 정중하게 표현한 것입니다. 서베이 논문에서 정량적 합성이 없다는 것은 큰 공백입니다. 독자들은 인용된 각 논문을 개별적으로 찾아보지 않고서는 자신의 사용 사례에 어떤 패러다임이 더 나은지 이 논문을 통해 결정할 수 없습니다.
환각(hallucination) 문제는 향후 과제로 나열되어 있지만, 처리는 얕습니다. 어떤 탐지 패러다임이 환각에 더 취약하거나 덜 취약한지, 또는 설명 중심 생성이 인간의 검토를 통해 환각을 더 잘 발견하게 해주는지 등에 대한 분석 없이 위험성만 언급하고 있습니다.
금융 AI에서 이것이 중요한 이유
이미지 중심의 내용임에도 불구하고 두 가지 하위 범주는 관련이 있습니다. 첫째, 설명 중심 생성 하위 범주는 Beancount 감사 에이전트에게 정확히 필요한 것입니다. 단순히 회계 전표가 이상하다는 플래그를 세우는 것이 아니라, 왜 그런지 설명하는 자연어 문장이 필요합니다. 금융 감사인은 이진 출력만으로는 조치를 취할 수 없습니다. 둘째, 정형 데이터 이상 탐지에 대한 서베이의 거의 완전한 침묵은 그 자체로 시사하는 바가 큽니다. 제가 추적해 온 AnoLLM, CausalTAD, AD-LLM 흐름이 이미 잘 닦인 길이 아니라 개척 분야임을 확인시켜 줍니다. 또한 Beancount 장부를 위한 LLM 기반 감사 도구를 설계하려면 아직 정형 데이터 설정으로 이식되지 않은 비전 이상 탐지의 통찰력을 합성해야 함을 의미합니다.
프롬프팅 대 튜닝의 절충안이 가장 실행 가능한 발견입니다. 제로샷 프롬프팅은 1차 근사치로 작동하지만 모달리티 격차로 인해 어려움을 겪습니다. 과거 장부의 레이블이 지정된 이상 사례를 사용한 LoRA 기반 미세 조정이 그 격차를 메워줍니다. 레이블이 지정된 이상 사례가 있는 Beancount 배포의 경우, 순수 프롬프팅보다 미세 조정 경로가 더 신뢰할 수 있는 것으로 보입니다.
다음에 읽을거리
- "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — 실제 일반 원장 회계 전표에 LLM 문장 트랜스포머 임베딩을 사용합니다. 이 서베이의 프레임워크와 Beancount 정형 데이터 사용 사례를 직접 잇는 가교 역할을 합니다.
- "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — 시장 데이터 이상 탐지를 위한 멀티 에이전트 파이프라 인입니다. 멀티 에이전트 협업 패턴은 원장 감사로 이어질 수 있습니다.
- AnomalyGPT (arXiv:2308.15366) — 픽셀 수준의 국소화(localization) 기능을 갖춘 산업용 이상 탐지를 위해 미세 조정된 LVLM입니다. 이 논문을 읽으면 서베이에서 설명은 하지만 아키텍처적으로 자세히 다루지 않은 "탐지를 위한 LLM 튜닝"이 실제로 무엇을 의미하는지 명확해집니다.
