AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст
Последните две статии в тази поредица разгледаха AnoLLM и CausalTAD – подходи за откриване на аномалии в таблични данни чрез фина настройка (fine-tuning) и проектиране на инструкции (prompt engineering). Преди да внедрите някой от тях в мащабна продукционна среда, трябва да знаете къде всъщност се намира ИИ (LLM) сред по-широк спектър от парадигми за откриване на аномалии. Това е изричната цел на AD-LLM, който сравнява големи езикови модели (LLM) в три различни роли: zero-shot детектор, двигател за допълване на данни и съветник за избор на модел. Фокусът е върху NLP текстови данни, а не върху таблични записи в главната книга, но методологичните уроци са приложими.
Статията
Tiankai Yang, Yi Nian и колеги от USC и Texas A&M представят AD-LLM (arXiv:2412.11142, ACL Findings 2025) – първият бенчмарк за систематична оценка на LLM в три парадигми за откриване на аномалии върху NLP набори от данни. Настройката е класификация с един клас: данните за обучение съдържат само нормални примери, а моделът трябва да идентифицира аномалиите по време на тестването. Петте набора от данни – AG News, BBC News, IMDB Reviews, N24 News и SMS Spam – произлизат от задачи за текстова класификация, при които една категория е обозначена като аномална. Статията сравнява два LLM, GPT-4o и Llama 3.1 8B Instruct, срещу 18 традиционни базови модела за обучение без надзор, които обхващат методи от край до край (CVDD, DATE) и комбинации от две стъпки „ембединг плюс детектор“ (OpenAI embeddings + LUNAR, LOF, Isolation Forest и др.).
Ключови идеи
- Zero-shot откриването работи добре за текст. GPT-4o постига AUROC от 0.9293–0.9919 в петте набора от данни в настройката Normal+Anomaly; Llama 3.1 достига 0.8612–0.9487. Най-добрият традиционен базов модел, OpenAI + LUNAR, постига около 0.92 на AG News – GPT-4o го изравнява или побеждава без никакво обучение.
- Синтетичното допълване помага последователно, но скромно. Синтетичните примери, генерирани от LLM, подобряват тръбопровода OpenAI + LUNAR във всичките пет набора от данни. Допълването на описанията на категориите също подобрява повечето базови линии, въпреки че печалбите са неравномерни – Llama 3.1 подобрява AUROC с +0.07 при IMDB Reviews, но резултатите на други места са по-малки.
- Изборът на модел е слабото звено. GPT-o1-preview препоръчва модели, които надминават средното представяне на базовите линии в повечето набори от данни и понякога се доближават до най-добрия метод (напр. при IMDB Reviews и SMS Spam). Но той никога не идентифицира надеждно най-добрия модел, а авторите признават, че препоръките се основават на опростени входни данни, на които липсва специфична статистика за набора от данни.
- Разликата между софтуера с отворен код и проприетарните модели е реална. Предимството на GPT-4o в AUROC пред Llama 3.1 8B е 4–13 пункта в зависимост от набора от данни – разлика, съответстваща на модела, наблюдаван в статиите за zero-shot откриване на аномалии в таблични данни.
- Откриването на аномалии в NLP все още няма окончателен бенчмарк. Пет набора от данни, всички извлечени от корпуси за класификация, са малко. Придружаващата статия NLP-ADBench (EMNLP Findings 2025) разширява обхвата до осем набора от данни и 19 алгоритъма, но все пак използва същата конструкция „семантична категория като аномалия“, която прави тези задачи донякъде изкуствени.
Какво се потвърждава – и какво не
Констатациите за zero-shot са достоверни. Използването на LLM като системи за оценяване без фина настройка върху етикетирани данни за аномалии е наистина полезно, когато класът на аномалията е семантично кохерентен – спам съобщението се различава от легитимното по начини, които добре обученият езиков модел разбира. Резултатите за AUROC са високи и сравнението със силни базови линии, базирани на OpenAI ембединги, е коректно.
Обхватът обаче е тесен по начини, които статията не подчертава достатъчно. И в петте набора от данни аномалиите са кодирани като различна тематична категория – спам срещу легитимен SMS, новини от неразкрит издател срещу новини от разпределението. Това означава, че LLM по същество извършва тематична класификация – задача, за която той е изрично предварително обучен. Бенчмаркът не включва семантични аномалии в рамките на една категория (напр. необичайни транзакции в рамките на един и същ тип сметка), което е точно видът аномалия, който е важен за финансовия одит.
Задачите за допълване на данни и избор на модел се оценяват върху същите пет набора от данни, така че статията в крайна сметка тества дали LLM могат д а направят малко по-добри различните аспекти на един и същ тесен проблем. Авторите честно изброяват шест ограничения – включително факта, че тестват само подмножество от LLM, изключват few-shot и режимите на фина настройка и разчитат на опростени входни данни за избор на модел – което е интелектуално честно, но също така показва колко предварителен е този бенчмарк.
Един резултат, който си струва да бъде отбелязан за скептиците: AUPRC резултатите са значително по-ниски от AUROC за двата модела. Llama 3.1 в BBC News достига AUROC 0.8612, но само AUPRC 0.3960, което отразява дисбаланса на класовете в конфигурацията с един клас. В контексти на одит с висока точност AUPRC е по-смислената метрика и тук картината е по-малко ласкава.
Защо това е важно за ИИ във финансите
Програмата на Bean Labs включва два случая на използване за откриване на аномалии: улавяне на необичайни записи в главната книга в реално време (таблични, структурирани) и сигнализиране за подозрителен текст във фактури, бележки или заявки за поддръжка (неструктуриран NLP). AD-LLM говори директно за втория случай и ни дава реалистичен таван: GPT-4o може да открива аномалии на ниво тема в текст чрез zero-shot с AUROC над 0.93 върху чисти, балансирани набори от данни. Това е полезна отправна точка, но аномалиите в описанията на главната книга са по-фини – бележка към фактура, която описва рутинна услуга, но принадлежи на доставчик, отбелязан с подозрителни модели, не е проблем на тематичната класификация. Бенчмаркът предоставя начална точка, а не окончателен отговор.
Констатацията за избора на модел е отделно интересна за дизайна на системи. Мечтата да попитате LLM „кой детектор на аномалии трябва да използвам за този набор от данни?“ и да получите надежден отговор все още не се сбъдва. Това означава, че изборът между фина настройка в стил AnoLLM, причинно-следствени инструкции (causal prompting) в стил CausalTAD или класически метод с ембединги все още изисква човешка преценка или систематична емпирична оценка – той не може да бъде делегиран на LLM съветник.
Какво да прочетете след това
- NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) – придружаващият бенчмарк от същата група, обхващащ осем набора от данни и 19 алгоритъма; осигурява по-широкия класически контекст, който обхватът от пет набора от данни на AD-LLM не може да предложи.
- Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) – изследва пълния пейзаж на базираните на LLM подходи за откриване на аномалии в текстови, графични и таблични модалности; попълва контекста за това къде се намира AD-LLM спрямо предходната работа.
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) – табличният еквивалент; сравняването на неговия подход, базиран на вероятността, със стратегията на AD-LLM за zero-shot чрез инструкции изяснява коя парадигма е по-подходяща за записи в главната книга на Beancount.
