LLM 이상 탐지 서베이 (NAACL 2025): 강력한 분류 체계, 부족한 정형 데이터 커버리지
Xu 및 Ding의 LLM 기반 이상 및 OOD 탐지에 관한 NAACL 2025 서베이에 대한 비판적 검토입니다. 탐지 대 생성 분류 체계는 유효하지만, 정형 데이터에 대한 설명이 거의 전무하여 금융 AI 실무자는 비전 모델의 통찰력을 직접 합성해야 합니다.
Xu 및 Ding의 LLM 기반 이상 및 OOD 탐지에 관한 NAACL 2025 서베이에 대한 비판적 검토입니다. 탐지 대 생성 분류 체계는 유효하지만, 정형 데이터에 대한 설명이 거의 전무하여 금융 AI 실무자는 비전 모델의 통찰력을 직접 합성해야 합니다.
AD-LLM은 5개의 NLP 데이터셋을 대상으로 제로샷 탐지기, 데이터 증강 도구, 모델 선택 조언자라는 세 가지 이상 탐지 역할에서 GPT-4o와 Llama 3.1 8B를 벤치마킹합니다. GPT-4o는 제로샷에서 0.93–0.99의 AUROC를 기록했지만, LLM 기반 모델 선택은 여전히 신뢰하기 어렵다는 점을 보여주며, 이는 금융 감사 AI에 직접적인 시사점을 제공합니다.
CausalTAD는 직렬화 전에 인과적 의존성을 고려하여 테이블 열 순서를 재정렬함으로써 LLM 기반 정형 데이터 이상 탐지 성능을 개선합니다. 혼합 유형 벤치마크에서 AnoLLM 대비 평균 AUC-ROC를 0.803에서 0.834로 높였으며, 이는 정형화된 장부 데이터의 이상 탐지에 직접적인 시사점을 제공합니다.
AnoLLM(ICLR 2025)은 정형 변칙 탐지를 LLM 밀도 추정으로 재구성합니다. 즉, 정상 행에 대해 미세 조정을 수행하고 음의 로그 가능도로 점수를 산출합니다. 이 방식은 혼합형 사기 데이터셋에서 고전적인 방법들을 능가하지만, 순수 수치형 데이터에서는 이점이 없으며 Beancount 장부 항목의 변칙을 탐지하는 데 실질적인 시사점을 제공합니다.
GPT-4는 파인튜닝 없이 ODDS 벤치마크에서 평균 AUROC 74.1을 기록하며 기존 ECOD 베이스라인(75.5)에 근접했으나, 다차원 이상치 및 고분산 데이터셋에서는 한계를 보였습니다. 자동화된 Beancount 장부 감사를 위한 제로샷 LLM 이상 탐지의 비판적 검토 및 시사점을 다룹니다.
AuditCopilot은 오픈 소스 LLM(Mistral-8B, Gemma, Llama-3.1)을 기업 분개 부정 탐지에 적용하여 오탐(false positive)을 942건에서 12건으로 줄였습니다. 하지만 소거 연구 결과, LLM은 독립적인 이상 탐지기가 아니라 주로 Isolation Forest 점수 위에 구축된 종합 레이어로 기능한다는 점이 밝혀졌습니다.
Wei 외 연구진의 2022년 생각의 사슬(Chain-of-Thought) 논문을 심층 분석하고, 이것이 금융 AI에 시사하는 바를 살펴봅니다. CoT가 정밀도를 높이는 반면 희귀 이벤트 탐지에서 재현율을 낮출 수 있는 이유, 프로덕션 에이전트에서 스케일 임계값이 중요한 이유, 그리고 LLM 기반 금융 팀이 주의해야 할 점을 다룹니다.