Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних
Попередні три записи в цій темі охоплювали AnoLLM, CausalTAD та AD-LLM — кожен з яких був присвячений саме виявленню табличних аномалій. Цей огляд Руйяо Сю та Кайзе Діна, прийнятий до NAACL 2025 Findings, мав би об'єднати ці напрямки в єдину карту ландшафту. Я очікував таксономію, яка б прояснила простір проектування; натомість я отримав переважно огляд виявлення аномалій у зображеннях та відео з тонким шаром узагальнення.
Про статтю
%3A%20%D1%81%D0%B8%D0%BB%D1%8C%D0%BD%D0%B0%20%D1%82%D0%B0%D0%BA%D1%81%D0%BE%D0%BD%D0%BE%D0%BC%D1%96%D1%8F%2C%20%D0%B2%D1%96%D0%B4%D1%81%D1%83%D1%82%D0%BD%D1%96%D1%81%D1%82%D1%8C%20%D0%BE%D1%85%D0%BE%D0%BF%D0%BB%D0%B5%D0%BD%D0%BD%D1%8F%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%87%D0%BD%D0%B8%D1%85%20%D0%B4%D0%B0%D0%BD%D0%B8%D1%85)
Огляд Сю та Діна (arXiv:2409.01980) пропонує розділити виявлення аномалій та виходу за межі розподілу (OOD) на базі LLM на два класи високого рівня: LLM для виявлення, де модель безпосередньо ідентифікує аномалії, та LLM для генерації, де модель доповнює навчальні дані або створює пояснення природною мовою, які передаються подальшому детектору. Кожен клас поділяється далі. Виявлення ділиться на методи на основі промптів (заморожені або донавчені LLM, до яких звертаються із запитами природною мовою) та методи на основі контрастування (моделі сімейства CLIP, які оцінюють ступінь аномальності шляхом порівняння фрагментів зображень із текстовими описами). Генерація ділиться на методи, орієнтовані на аугментацію (генерація псевдо-OOD міток або синтетичних вибірок меншості), та методи, орієнтовані на поясн ення (створення логічних обґрунтувань природною мовою для виявлених подій).
Супровідний список літератури на GitHub охоплює близько 39 робіт: 24 з виявлення, 10 з аугментації та 5 з пояснення.
Ключові ідеї
- Методи на основі контрастування домінують у виявленні аномалій на зображеннях. WinCLIP досягає 91,8% та 85,1% AUROC у класифікації та сегментації аномалій zero-shot на MVTec-AD без будь-якого налаштування під конкретний набір даних, що є конкурентоспроможним порівняно з методами навчання з учителем.
- Заморожені LLM стикаються з модальним розривом для нетекстових даних. В огляді прямо зазначається, що «пряме використання промптів для заморожених LLM з метою виявлення аномалій або OOD у різних типах даних часто дає субоптимальні результати через властивий модальний розрив між текстом та іншими модальностями даних».
- LoRA та налаштування адаптерів усувають цей розрив. Такі методи, як AnomalyGPT та AnomalyCLIP, використовують донавчання з ефективним використанням параметрів і суттєво перевершують свої заморожені аналоги.
- Генерація як аугментація використовується недостатньо. Псевдо-OOD мітки на рівні підписів, згенеровані BLIP-2, перевершують альтернативи на рівні слів та описів у виявленні OOD, що свідчить про важливість багатшого текстового нагляду навіть для візуальних завдань.
- Генерація з орієнтацією на пояснення — найновіша підкатегорія. Системи на кшталт Holmes-VAD та VAD-LLaMA виходять за межі бінарних прапорців, генеруючи обґрунтування природною мовою для аномальних подій, переважно у відеоспостереженні.
- Табличні дані майже відсутні. В огляді згадується лише один метод — «Tabular» від Li et al. (2024), який перетворює рядки таблиці на текстові промпти та донавчає їх за допомогою LoRA, але не наводить жодних порівняльних показників.