Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни
Предишните три публикации в тази тема разгледаха AnoLLM, CausalTAD и AD-LLM — всяка от тях насочена конкретно към откриване на аномалии в таблични данни. Този обзор на Руйяо Сю и Кайзе Динг, приет във Findings на NAACL 2025, би трябвало да свърже тези нишки в единна карта на ландшафта. Очаквах таксономия, която да изясни пространството за проектиране; това, което получих, е предимно обзор на откриването на аномалии в изображения и видео с тънък слой общост.
Документът
Обзорът на Сю и Динг (arXiv:2409.01980) предлага организиране на откриването на аномалии и извъндистрибуционни данни (OOD) чрез LLM в два класа на високо ниво: LLM за откриване, където моделът директно идентифицира аномалии, и LLM за генериране, където моделът допълва данните за обучение или създава обяснения на естествен език, които захранват последващ детектор. Всеки клас се подразделя допълнително. Откриването се разделя на методи, базирани на подкани (frozen или tuned LLM, запитвани с подкани на естествен език) и методи, базирани на контрастиране (модели от фамилията CLIP, които оценяват аномалността чрез сравняване на части от изображения с текстови описания). Генерирането се разделя на методи, фокусирани върху допълване (генериране на псевдо-OOD етикети или синтетични малцинствени проби) и методи, фокусирани върху обяснението (създаване на обосновки на естествен език за маркирани събития).
Придружаващият списък за четене в GitHub обхваща приблизително 39 документа: 24 за откриване, 10 за допълване и 5 за обяснение.
Ключови идеи
- Методите, базирани на контрастиране, доминират при откриването на аномалии в изображения. WinCLIP постига 91,8% и 85,1% AUROC при zero-shot класификация и сегментация на аномалии върху MVTec-AD без никаква специфична настройка на набора от данни, което е конкурентно на контролираните методи, обучени върху този набор.
- Замразените (frozen) LLM се сблъскват с модална пропаст при нетекстови данни. Обзорът изрично отбелязва, че „директното подаване на подкани към замразени LLM за откриване на аномалии или OOD при различни типове данни често води до субоптимална производителност поради присъщата модална пропаст между текста и другите модалности на данните“.
- LoRA и настройката на адаптери преодоляват голяма част от тази разлика. Методи като AnomalyGPT и AnomalyCLIP се донастройват с техники за ефективно използване на параметрите и значително превъзхождат своите замразени аналози.
- Генерирането като допълване (augmentation) е слабо използвано. Генерираните от BLIP-2 псевдо-OOD етикети на ниво заглавие превъзхождат алтернативите на ниво дума и описание при откриването на OOD, което предполага, че по-богатият текстов надзор е от значение дори за визуални задачи.
- Генерирането, фокусирано върху обяснението, е най-новата подкатегория. Системи като Holmes-VAD и VAD-LLaMA надхвърлят бинарните флагове, за да генерират обосновки на естествен език за аномални събития, предимно във видео за наблюдение.
- Табличните данни почти отсъстват. Обзорът цитира един метод — „Tabular“ на Ли и др. (2024) — който преобразува таблични редове в текстови подкани и ги донастройва с LoRA, но не предоставя сравнителни данни.
Кое е устойчиво и кое не
Таксономията от два класа е наистина чиста и вероятно ще я използвам, за да организирам собственото си мислене. Разграничението между откриване и генериране улавя реално архитектурно разклонение: или искате от LLM да класифицира директно, или го използвате, за да изградите по-добър тренировъчен сигнал за традиционен детектор.
Това, което не мога да приема, е рамкирането на документа като обзор на откриването на аномалии в широк смисъл. Обхватът е преобладаващо концентриран върху изображения на индустриални дефекти (MVTec-AD, VisA) и видеонаблюдение (UCF-Crime, XD-Violence). От приблизително 39 каталогизирани статии, почти нито една не се занимава с таблични или финансови данни. Времевите редове получават няколко цитирания. Табличните данни получават едно изречение. Това не е карта на ландшафта за Bean Labs — това е карта на ландшафта за изследователи в областта на компютърното зрение, които искат да използват CLIP за откриване на дефекти.
Авторите признават, че „ограниченията в пространството предотвратяват подробни обобщения на метриките“, което е учтив начин да се каже, че липсват сравнителни таблици. За обзорна статия липсата на количествен синтез е значителен пропуск. Читателите не могат да използват този документ, за да решат коя парадигма е по-добра за техния случай на употреба, без да проследяват всяка цитирана статия поотделно.
Предизвикателството на халюцинациите е посочено като отворен проблем, но третирането му е повърхностно — то назовава риска, без да анализира кои парадигми за откриване са повече или по-малко податливи, или как генерирането, фокусирано върху обяснението, може да направи халюцинациите по-лесно откриваеми чрез човешки преглед.
Защо това е важно за финансовия AI
Две подкатегории са подходящи въпреки фокуса върху изображенията. Първо, подкатегорията генериране, фокусирано върху обяснението, е точно това, от което се нуждаят одитните агенти на Beancount: не просто флаг, че даден счетоводен запис е аномален, а изречение на естествен език, обясняващо защо. Финансовите одитори не могат да действат въз основа на бинарен изход. Второ, почти пълното мълчание на обзора относно откриването на аномалии в таблични данни е само по себе си информативно — то потвърждава, че нишката AnoLLM, CausalTAD и AD-LLM, която следя, е гранична област, а не добре утъпкан път, и че проектирането на одитни инструменти, базирани на LLM за регистрите на Beancount, изисква синтезиране на прозрения от откриването на аномалии във визията, които все още не са пренесени в таблични настройки.
Компромисът между подкани (prompting) и настройка (tuning) е най-практичната находка: zero-shot подканите работят като първо приближение, но страдат от модалната пропаст; донастройката на базата на LoRA върху представителни етикетирани примери затваря тази разлика. За внедряване на Beancount с етикетирани примери за аномалии от исторически регистри, пътят на донастройката изглежда по-надежден от чистото използване на подкани.
Какво да прочетете след това
- „Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs“ (arXiv:2406.03614) — използва LLM вграждания (embeddings) от sentence-transformer върху реални записи в главната книга; директен мост от рамката на този обзор към случая с таблични данни в Beancount.
- „Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework“ (arXiv:2403.19735) — мултиагентен тръбопровод за откриване на аномалии в пазарни данни; моделът на мултиагентна координация може да бъде пренесен към одита на регистрите.
- AnomalyGPT (arXiv:2308.15366) — донастроен LVLM за откриване на индустриални аномалии с локализация на ниво пиксел; четенето на това изяснява какво всъщност означава архитектурно „LLM настройка за откриване“, което обзорът описва, но не обяснява.
