Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií
Posledné dva príspevky v tejto sérii sa venovali modelom AnoLLM a CausalTAD – prístupom k tabuľkovej detekcii anomálií založeným na jemnom doladení (fine-tuning) a inžinierstve promptov. Predtým, než ktorýkoľvek z nich nasadíte v produkčnom meradle, musíte vedieť, kde LLM skutočne stoja v širšom spektre paradigiem detekcie anomálií. To je explicitným cieľom AD-LLM, ktorý testuje LLM v troch odlišných úlohách: ako zero-shot detektor, nástroj na augmentáciu dát a poradca pri výbere modelu. Zameriava sa skôr na textové NLP dáta než na tabuľkové záznamy v účtovnej knihe, avšak metodologické ponaučenia sú prenosné.
Štúdia
Tiankai Yang, Yi Nian a kolegovia z USC a Texas A&M predstavujú AD-LLM (arXiv:2412.11142, ACL Findings 2025), prvý benchmark na systematické vyhodnotenie LLM v troch paradigmách detekcie anomálií na NLP datasetoch. Nastavenie predstavuje jednotriednu klasifikáciu (one-class classification): trénovacie dáta obsahujú iba normálne vzorky a model musí pri testovaní označiť anomálie. Päť datasetov – AG News, BBC News, IMDB Reviews, N24 News a SMS Spam – je odvodených z úloh klasifikácie textu, kde jedna kategória je určená ako anomálna. Práca stavia dva modely LLM, GPT-4o a Llama 3.1 8B Instruct, proti 18 tradičným neudržiavaným (unsupervised) základným líniám (baselines), ktoré zahŕňajú end-to-end metódy (CVDD, DATE) a dvojkrokové kombinácie embedding+detektor (OpenAI embeddingy + LUNAR, LOF, Isolation Forest atď.).
Kľúčové myšlienky
- Zero-shot detekcia pri texte funguje dobre. GPT-4o dosahuje AUROC 0,9293 – 0,9919 v rámci piatich datasetov v nastavení Normálna+Anomália; Llama 3.1 dosahuje 0,8612 – 0,9487. Najlepšia tradičná základná línia, OpenAI + LUNAR, dosahuje na AG News skóre okolo 0,92 – GPT-4o sa jej vyrovnáva alebo ju prekonáva bez akéhokoľvek trénovania.
- Syntetická augmentácia pomáha, konzistentne, ale mierne. Syntetické vzorky generované pomocou LLM zlepšujú pipeline OpenAI + LUNAR na všetkých piatich datasetoch. Augmentácia popisu kategórií tiež zlepšuje väčšinu základných línií, hoci prírastky sú nerovnomerné – Llama 3.1 zlepšuje AUROC o +0,07 pri IMDB Reviews, ale inde sú výsledky menšie.
- Výber modelu je slabým článkom. GPT-o1-preview odporúča modely, ktoré prekonávajú priemerný výkon základných línií na väčšine datasetov a občas sa približujú k najlepšej metóde (napr. pri IMDB Reviews a SMS Spam). Nikdy však spoľahlivo neidentifikuje najlepšie fungujúci model a autori priznávajú, že odporúčania sú založené na zjednodušených vstupoch, ktorým chýbajú štatistiky špecifické pre daný dataset.
- Priepasť medzi open-source a proprietárnymi modelmi je reálna. Náskok GPT-4o v AUROC oproti Llama 3.1 8B je 4 až 13 bodov v závislosti od datasetu, čo je rozdiel konzistentný so vzorcom pozorovaným v prácach o zero-shot detekcii tabuľkových anomálií.
- NLP detekcii anomálií stále chýba definitívny benchmark. Päť datasetov, všetky odvodené z klasifikačných korpusov, je málo. Sprievodná práca NLP-ADBench (EMNLP Findings 2025) rozširuje záber na osem datasetov a 19 algoritmov, ale stále používa rovnakú konštrukciu „sémantická kategória ako anomália“, čo robí tieto úlohy do istej miery umelými.
Čo obstojí — a čo nie
Zistenia týkajúce sa zero-shot detekcie sú dôveryhodné. Používanie LLM ako hodnotiacich nástrojov (scorers) bez jemného doladenia na označených dátach anomálií je skutočne užitočné, ak je trieda anomálií sémanticky koherentná – spamová správa sa od legitímnej SMS líši spôsobmi, ktorým dobre natrénovaný jazykový model rozumie. Hodnoty AUROC sú vysoké a porovnanie so silnými základnými líniami založenými na OpenAI embeddingoch je spravodlivé.
Rozsah je však úzky spôsobmi, ktoré práca podceňuje. Všetkých päť datasetov kóduje anomálie ako inú tematickú kategóriu – spam verzus legitímne SMS, správy od vyčleneného vydavateľa verzus správy z distribúcie. To znamená, že LLM v podstate vykonáva tematickú klasifikáciu, čo je úloha, na ktorú je explicitne predtrénovaný. Benchmark nezahŕňa sémantické anomálie v rámci jednej kategórie (napr. neobvyklé transakcie v rámci rovnakého typu účtu), čo je presne ten druh anomálie, na ktorom záleží pri finančnom audite.
Úlohy augmentácie dát a výberu modelu sú vyhodnocované na tých istých piatich datasetoch, takže práca nakoniec testuje, či LLM dokážu mierne zlepšiť rôzne aspekty toho istého úzkeho problému. Autori otvorene uvádzajú šesť obmedzení – vrátane toho, že testujú iba podmnožinu LLM, vylučujú režimy few-shot a jemného doladenia a spoliehajú sa na zjednodušené vstupy pre výber modelu – čo je intelektuálne poctivé, ale zároveň to signalizuje, aký predbežný tento benchmark je.
Jeden výsledok stojí za zmienku pre skeptikov: skóre AUPRC sú u oboch modelov podstatne nižšie ako AUROC. Llama 3.1 na BBC News dosahuje AUROC 0,8612, ale AUPRC iba 0,3960, čo odráža nerovnováhu tried v jednotriednom nastavení. V kontextoch auditu s vysokou presnosťou je AUPRC zmysluplnejšou metrikou a tu je obraz menej lichotivý.
Prečo na tom záleží pre finančnú AI
Agenda Bean Labs zahŕňa dva prípady použitia detekcie anomálií: zachytávanie neobvyklých položiek účtovnej knihy v reálnom čase (tabuľkové, štruktúrované) a označovanie podozrivého naratívneho textu vo faktúrach, memách alebo tiketoch podpory (neštruktúrované NLP). AD-LLM hovorí priamo k druhému prípadu a poskytuje nám realistický strop: GPT-4o dokáže zero-shot detegovať anomálie na úrovni tém v texte s AUROC nad 0,93 na čistých, vyvážených datasetoch. To je užitočný základ, ale anomálie v opisoch účtovnej knihy sú jemnejšie – poznámka na faktúre, ktorá popisuje rutinnú službu, ale patrí dodávateľovi označenému pre podozrivé vzorce, nie je problémom tematickej klasifikácie. Benchmark poskytuje východiskový bod, nie odpoveď.
Zistenie o výbere modelu je samostatne zaujímavé pre návrh systému. Sen o tom, že sa spýtame LLM „ktorý detektor anomálií mám použiť na tomto datasete?“ a dostaneme spoľahlivú odpoveď, sa zatiaľ nenapĺňa. To znamená, že výber medzi jemným doladením v štýle AnoLLM, kauzálnym promptovaním v štýle CausalTAD alebo klasickou metódou embeddingov stále vyžaduje ľudský úsudok alebo systematické empirické vyhodnotenie – nemožno to delegovať na LLM poradcu.
Čo si prečítať ďalej
- NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) – sprievodný benchmark od rovnakej skupiny, pokrývajúci osem datasetov a 19 algoritmov; poskytuje širší kontext klasických základných línií, ktorý rozsah piatich datasetov AD-LLM nemôže obsiahnuť.
- Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) – prehľad celého prostredia prístupov k detekcii anomálií založených na LLM v textových, obrazových a tabuľkových modalitách; dopĺňa kontext o tom, kde sa AD-LLM nachádza v porovnaní s predchádzajúcimi prácami.
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) – tabuľkový náprotivok; porovnanie jeho prístupu založeného na pravdepodobnosti (likelihood) so zero-shot stratégiou AD-LLM založenou na promptoch objasňuje, ktorá paradigma je vhodnejšia pre položky účtovnej knihy Beancount.
