Перейти до основного вмісту

Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Попередні три записи в цій темі охоплювали AnoLLM, CausalTAD та AD-LLM — кожен з яких був присвячений саме виявленню табличних аномалій. Цей огляд Руйяо Сю та Кайзе Діна, прийнятий до NAACL 2025 Findings, мав би об'єднати ці напрямки в єдину карту ландшафту. Я очікував таксономію, яка б прояснила простір проектування; натомість я отримав переважно огляд виявлення аномалій у зображеннях та відео з тонким шаром узагальнення.

Про статтю

2026-07-03-llm-anomaly-ood-detection-survey

Огляд Сю та Діна (arXiv:2409.01980) пропонує розділити виявлення аномалій та виходу за межі розподілу (OOD) на базі LLM на два класи високого рівня: LLM для виявлення, де модель безпосередньо ідентифікує аномалії, та LLM для генерації, де модель доповнює навчальні дані або створює пояснення природною мовою, які передаються подальшому детектору. Кожен клас поділяється далі. Виявлення ділиться на методи на основі промптів (заморожені або донавчені LLM, до яких звертаються із запитами природною мовою) та методи на основі контрастування (моделі сімейства CLIP, які оцінюють ступінь аномальності шляхом порівняння фрагментів зображень із текстовими описами). Генерація ділиться на методи, орієнтовані на аугментацію (генерація псевдо-OOD міток або синтетичних вибірок меншості), та методи, орієнтовані на пояснення (створення логічних обґрунтувань природною мовою для виявлених подій).

Супровідний список літератури на GitHub охоплює близько 39 робіт: 24 з виявлення, 10 з аугментації та 5 з пояснення.

Ключові ідеї

  • Методи на основі контрастування домінують у виявленні аномалій на зображеннях. WinCLIP досягає 91,8% та 85,1% AUROC у класифікації та сегментації аномалій zero-shot на MVTec-AD без будь-якого налаштування під конкретний набір даних, що є конкурентоспроможним порівняно з методами навчання з учителем.
  • Заморожені LLM стикаються з модальним розривом для нетекстових даних. В огляді прямо зазначається, що «пряме використання промптів для заморожених LLM з метою виявлення аномалій або OOD у різних типах даних часто дає субоптимальні результати через властивий модальний розрив між текстом та іншими модальностями даних».
  • LoRA та налаштування адаптерів усувають цей розрив. Такі методи, як AnomalyGPT та AnomalyCLIP, використовують донавчання з ефективним використанням параметрів і суттєво перевершують свої заморожені аналоги.
  • Генерація як аугментація використовується недостатньо. Псевдо-OOD мітки на рівні підписів, згенеровані BLIP-2, перевершують альтернативи на рівні слів та описів у виявленні OOD, що свідчить про важливість багатшого текстового нагляду навіть для візуальних завдань.
  • Генерація з орієнтацією на пояснення — найновіша підкатегорія. Системи на кшталт Holmes-VAD та VAD-LLaMA виходять за межі бінарних прапорців, генеруючи обґрунтування природною мовою для аномальних подій, переважно у відеоспостереженні.
  • Табличні дані майже відсутні. В огляді згадується лише один метод — «Tabular» від Li et al. (2024), який перетворює рядки таблиці на текстові промпти та донавчає їх за допомогою LoRA, але не наводить жодних порівняльних показників.

Що витримує критику, а що ні

Двокласова таксономія справді чітка, і я, ймовірно, використовуватиму її для впорядкування власних думок. Розрізнення між виявленням та генерацією відображає реальну архітектурну розвилку: ви або просите LLM класифікувати дані безпосередньо, або використовуєте її для створення кращого навчального сигналу для традиційного детектора.

Чого я не можу прийняти, так це позиціонування статті як широкого огляду виявлення аномалій. Охоплення переважно зосереджене на дефектах промислових зображень (MVTec-AD, VisA) та відеоспостереженні (UCF-Crime, XD-Violence). З приблизно 39 каталогізованих робіт майже жодна не стосується табличних або фінансових даних. Часові ряди отримали кілька цитувань. Табличним даним присвячено одне речення. Це не карта ландшафту для Bean Labs — це карта для дослідників комп'ютерного зору, які хочуть використовувати CLIP для виявлення дефектів.

Автори визнають, що «обмеження обсягу заважають детальному підсумку метрик», що є ввічливим способом сказати, що порівняльних таблиць немає. Для оглядової статті відсутність кількісного синтезу є значною прогалиною. Читачі не можуть використовувати цю статтю, щоб вирішити, яка парадигма краща для їхнього випадку використання, не відстежуючи кожну цитовану роботу окремо.

Проблема галюцинацій вказана як відкрите питання, але розгляд є поверхневим — називається ризик без аналізу того, які парадигми виявлення є більш або менш вразливими, або як генерація з орієнтацією на пояснення може зробити галюцинації помітнішими під час людської перевірки.

Чому це важливо для фінансового ШІ

Дві підкатегорії є актуальними, незважаючи на акцент на зображеннях. По-перше, підкатегорія генерації з орієнтацією на пояснення — це саме те, що потрібно агентам аудиту Beancount: не просто прапорець про аномальність запису в журналі, а речення природною мовою з поясненням причини. Фінансові аудитори не можуть працювати з бінарним результатом. По-друге, майже повне мовчання огляду щодо виявлення табличних аномалій саме по собі є інформативним — воно підтверджує, що напрямок AnoLLM, CausalTAD та AD-LLM, за яким я стежу, є передовою областю, а не протоптаною стежкою, і що розробка інструментів аудиту на базі LLM для регістрів Beancount вимагає синтезу ідей із виявлення аномалій у візуальних даних, які ще не були перенесені на табличні середовища.

Найбільш практичним висновком є компроміс між промптами та донавчанням: zero-shot промпти працюють як перше наближення, але страждають від модального розриву; донавчання на основі LoRA на репрезентативних розмічених прикладах закриває цей розрив. Для розгортання Beancount із розміченими прикладами аномалій з історичних книг шлях донавчання виглядає надійнішим, ніж чисте використання промптів.

Що читати далі

  • "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — використовує ембеддінги LLM sentence-transformer для реальних записів головної книги; прямий міст від структури цього огляду до табличного використання Beancount.
  • "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — мультиагентний конвеєр для виявлення аномалій ринкових даних; шаблон мультиагентної координації може бути перенесений на аудит бухгалтерських книг.
  • AnomalyGPT (arXiv:2308.15366) — донавчена LVLM для виявлення промислових аномалій із локалізацією на рівні пікселів; читання цієї роботи прояснює, що насправді означає «налаштування LLM для виявлення» з точки зору архітектури, що огляд описує, але не пояснює.