Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát
Predchádzajúce tri príspevky v tomto vlákne sa zaoberali modelmi AnoLLM, CausalTAD a AD-LLM – každý z nich sa zameriaval konkrétne na detekciu tabuľkových anomálií. Tento prehľad od Ruiyao Xu a Kaize Dinga, prijatý na NAACL 2025 Findings, mal tieto vlákna spojiť do jednotnej mapy prostredia. Očakával som taxonómiu, ktorá objasní dizajnový priestor; to, čo som dostal, je väčšinou prehľad detekcie anomálií v obrázkoch a videách s tenkým nánosom všeobecnosti.
Príspevok
Prehľad od Xu a Dinga (arXiv:2409.01980) navrhuje usporiadať detekciu anomálií a out-of-distribution (OOD) založenú na LLM do dvoch tried vysokej úrovne: LLM pre detekciu, kde model priamo identifikuje anomálie, a LLM pre generovanie, kde model dopĺňa trénovacie dáta alebo vytvára vysvetlenia v prirodzenom jazyku, ktoré slúžia ako vstup pre následný detektor. Každá trieda sa ďalej delí. Detekcia sa delí na metódy založené na promptovaní (zmrazené alebo vyladené LLM dopytované pomocou promptov v prirodzenom jazyku) a metódy založené na kontraste (modely rodiny CLIP, ktoré hodnotia anomálnosť porovnaním výrezov obrázkov s textovými popismi). Generovanie sa delí na metódy zamerané na augmentáciu (generovanie pseudo-OOD štítkov alebo syntetických minoritných vzoriek) a metódy zamerané na vysvetlenie (vytváranie zdôvodnení v prirodzenom jazyku pre označené udalosti).
Sprievodný zoznam literatúry na GitHube obsahuje približne 39 prác: 24 v oblasti detekcie, 10 v oblasti augmentácie a 5 v oblasti vysvetľovania.
Kľúčové myšlienky
- Metódy založené na kontraste dominujú v detekcii anomálií obrázkov. WinCLIP dosahuje 91,8 % a 85,1 % AUROC pri zero-shot klasifikácii anomálií a segmentácii na MVTec-AD bez akéhokoľvek ladenia špecifického pre daný súbor dát, čo je konkurencieschopné s dohliadanými (supervised) metódami trénovanými na tomto súbore dát.
- Zmrazené LLM narážajú na modalitnú medzeru pri netextových dátach. Prehľad výslovne uvádza, že „priame promptovanie zmrazených LLM pre výsledky detekcie anomálií alebo OOD v rôznych typoch dát často prináša suboptimálny výkon kvôli vrodenej modalitnej medzere medzi textom a inými dátovými modalitami.“
- Ladenie pomocou LoRA a adaptérov túto medzeru výrazne vypĺňa. Metódy ako AnomalyGPT a AnomalyCLIP využívajú techniky efektívne z hľadiska parametrov a podstatne prekonávajú svoje zmrazené náprotivky.
- Generovanie ako augmentácia je nevyužívané. Pseudo-OOD štítky na úrovni popiskov generované modelom BLIP-2 prekonávajú alternatívy na úrovni slov a popisov v detekcii OOD, čo naznačuje, že bohatší textový dohľad je dôležitý aj pre vizuálne úlohy.
- Generovanie zamerané na vysvetlenie je najnovšou podkategóriou. Systémy ako Holmes-VAD a VAD-LLaMA idú nad rámec binárnych príznakov a generujú zdôvodnenia anomálnych udalostí v prirodzenom jazyku, väčšinou v sledovacích videách.
- Tabuľkové dáta takmer chýbajú. Prehľad cituje jednu metódu – „Tabular“ od Li et al. (2024) – ktorá konvertuje tabuľkové riadky na textové prompty a dolaďuje ich pomocou LoRA, ale neposkytuje žiadne porovnávacie čísla.
Čo obstojí – a čo nie
Táto dvojtriedna taxonómia je skutočne prehľadná a pravdepodobne ju budem používať na usporiadanie vlastných úvah. Rozlíšenie detekcia verzus generovanie zachytáva skutočné architektonické rozvetvenie: buď požiadate LLM, aby klasifikovalo priamo, alebo ho použijete na vytvorenie lepšieho trénovacieho signálu pre tradičný detektor.
Čo nemôžem akceptovať, je rámcovanie príspevku ako prehľadu detekcie anomálií v širokom zmysle. Pokrytie je drvivo sústredené na obrázky priemyselných chýb (MVTec-AD, VisA) a videá z bezpečnostných kamier (UCF-Crime, XD-Violence). Z približne 39 katalogizovaných prác sa takmer žiadna nezaoberá tabuľkovými alebo finančnými dátami. Časové rady dostávajú niekoľko citácií. Tabuľkové dáta jednu vetu. Toto nie je mapa prostredia pre Bean Labs – je to mapa prostredia pre výskumníkov v oblasti počítačového videnia, ktorí chcú používať CLIP na detekciu chýb.
Autori priznavajú, že „priestorové obmedzenia bránia podrobným súhrnom metrík,“ čo je zdvorilý spôsob, ako povedať, že v práci chýbajú porovnávacie tabuľky. V prehľadovej práci je absencia kvantitatívnej syntézy významnou medzerou. Čitatelia nemôžu tento príspevok použiť na rozhodnutie, ktorá paradigma je lepšia pre ich prípad použitia, bez toho, aby si museli každú citovanú prácu vyhľadať jednotlivo.
Problém halucinácií je uvedený ako otvorená výzva, ale jeho spracovanie je povrchné – pomenuje riziko bez toho, aby analyzovalo, ktoré paradigmy detekcie sú naň viac či menej náchylné, alebo ako by generovanie zamerané na vysvetlenie mohlo urobiť halucinácie lepšie detegovateľnými prostredníctvom ľudskej kontroly.
Prečo je to dôležité pre finančnú AI
Dve podkategórie sú relevantné napriek zameraniu na obrázky. Po prvé, podkategória generovania zameraného na vysvetlenie je presne to, čo auditné agenty pre Beancount potrebujú: nielen príznak, že účtovný zápis je anomálny, ale aj veta v prirodzenom jazyku vysvetľujúca prečo. Finanční audítori nemôžu konať na základe binárneho výstupu. Po druhé, takmer úplné mlčanie prehľadu o detekcii tabuľkových anomálií je samo o sebe informatívne – potvrdzuje, že línia modelov AnoLLM, CausalTAD a AD-LLM, ktorú sledujem, je skôr pionierska oblasť než vychodený chodník, a že navrhovanie auditných nástrojov založených na LLM pre účtovné knihy Beancount vyžaduje syntézu poznatkov z detekcie anomálií vo videní, ktoré ešte neboli prenesené do tabuľkového prostredia.
Kompromis medzi promptovaním a ladením je najpraktickejším zistením: zero-shot promptovanie funguje ako prvotná aproximácia, ale trpí modalitnou medzerou; jemné doladenie pomocou LoRA na reprezentatívnych označených príkladoch túto medzeru uzatvára. Pre nasadenie v prostredí Beancount s označenými príkladmi anomálií z historických denníkov sa cesta jemného doladenia javí ako spoľahlivejšia než čisté promptovanie.
Čo si prečítať ďalej
- „Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs“ (arXiv:2406.03614) – používa LLM sentence-transformer embeddingy na reálnych účtovných zápisoch v hlavnej knihe; priamy most od rámca tohto prehľadu k tabuľkovému využitiu v Beancounte.
- „Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework“ (arXiv:2403.19735) – multi-agentová pipeline pre detekciu anomálií v trhových dátach; vzor multi-agentovej koordinácie sa môže preniesť aj do auditu účtovných kníh.
- AnomalyGPT (arXiv:2308.15366) – vyladený model LVLM pre priemyselnú detekciu anomálií s lokalizáciou na úrovni pixelov; prečítanie tohto príspevku objasňuje, čo v skutočnosti architektonicky znamená „ladenie LLM pre detekciu“, čo prehľad popisuje, ale nevysvetľuje.
