Перейти до основного вмісту

Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Останні два дописи в цій серії були присвячені AnoLLM та CausalTAD — підходам до виявлення аномалій у табличних даних за допомогою тонкого налаштування (fine-tuning) та інженерії промптів (prompt engineering). Перш ніж впроваджувати будь-який із них у промислових масштабах, потрібно зрозуміти, на якому рівні LLM перебувають у ширшому спектрі парадигм виявлення аномалій. Саме це є основною метою AD-LLM, який тестує LLM у трьох різних ролях: zero-shot детектора, інструмента для доповнення даних та радника з вибору моделей. У центрі уваги — текстові дані NLP, а не табличні записи бухгалтерської книги, проте методологічні уроки можна застосувати й тут.

Стаття

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Тянькай Ян, І Нянь та їхні колеги з USC та Техаського університету A&M представляють AD-LLM (arXiv:2412.11142, ACL Findings 2025), перший бенчмарк для систематичної оцінки LLM у трьох парадигмах виявлення аномалій на наборах даних NLP. Контекст — однокласова класифікація: навчальні дані містять лише нормальні зразки, а модель повинна виявляти аномалії під час тестування. П’ять наборів даних — AG News, BBC News, IMDB Reviews, N24 News та SMS Spam — походять із завдань текстової класифікації, де одна категорія визначена як аномальна. Стаття порівнює дві LLM, GPT-4o та Llama 3.1 8B Instruct, із 18 традиційними базовими моделями без вчителя, що охоплюють як наскрізні методи (CVDD, DATE), так і комбінації вбудовування та детектора (OpenAI embeddings + LUNAR, LOF, Isolation Forest тощо).

Основні ідеї

  • Zero-shot виявлення добре працює для тексту. GPT-4o демонструє AUROC 0,9293–0,9919 на п’яти наборах даних у режимі «Normal+Anomaly»; Llama 3.1 досягає 0,8612–0,9487. Найкраща традиційна базова модель, OpenAI + LUNAR, показує близько 0,92 на AG News — GPT-4o наздоганяє або перевершує її без будь-якого навчання.
  • Синтетичне доповнення допомагає стабільно, але помірно. Синтетичні зразки, створені LLM, покращують результати пайплайну OpenAI + LUNAR на всіх п’яти наборах даних. Доповнення описами категорій також покращує більшість базових моделей, хоча приріст нерівномірний — Llama 3.1 підвищує AUROC на +0,07 на IMDB Reviews, але в інших випадках результати скромніші.
  • Вибір моделі — слабка ланка. GPT-o1-preview рекомендує моделі, які перевершують середні показники базових методів на більшості наборів даних, а іноді наближаються до найкращого методу (наприклад, на IMDB Reviews та SMS Spam). Але вона ніколи надійно не визначає найкращу модель, і автори визнають, що рекомендації ґрунтуються на спрощених вхідних даних, яким бракує специфічної статистики набору даних.
  • Розрив між відкритим кодом та пропрієтарними моделями реальний. Перевага GPT-4o в AUROC над Llama 3.1 8B становить 4–13 пунктів залежно від набору даних, що узгоджується з тенденцією, яку спостерігають у роботах із zero-shot виявлення аномалій у табличних даних.
  • Виявленню аномалій у NLP все ще бракує остаточного бенчмарку. П’ять наборів даних, усі похідні від корпусів для класифікації, — це замало. Супутня стаття NLP-ADBench (EMNLP Findings 2025) розширює перелік до восьми наборів даних і 19 алгоритмів, але все ще використовує ту саму конструкцію «семантична категорія як аномалія», що робить ці завдання дещо штучними.

Що підтверджується, а що ні

Висновки щодо zero-shot виявлення заслуговують на довіру. Використання LLM як інструментів оцінки без тонкого налаштування на мічених даних про аномалії є дійсно корисним, коли клас аномалій семантично цілісний — спам-повідомлення відрізняється від звичайного повідомлення так, як це розуміє добре навчена мовна модель. Показники AUROC високі, а порівняння з потужними базовими моделями на основі вбудовувань OpenAI є чесним.

Проте сфера застосування вужча, ніж це представлено у статті. У всіх п’яти наборах даних аномалії закодовані як окремі тематичні категорії — спам проти легітимних SMS, новини стороннього видавця проти внутрішньорозподілених джерел. Це означає, що LLM, по суті, виконує тематичну класифікацію — завдання, на якому вона була спеціально попередньо навчена. Бенчмарк не включає семантичні аномалії всередині однієї категорії (наприклад, нетипові транзакції в межах одного типу рахунку), що є саме тим типом аномалій, який критично важливий для фінансового аудиту.

Завдання з доповнення даних та вибору моделей оцінюються на тих самих п’яти наборах даних, тому стаття зрештою перевіряє, чи можуть LLM незначно покращити різні аспекти тієї самої вузької проблеми. Автори відверто перераховують шість обмежень — зокрема те, що вони тестували лише підмножину LLM, виключили режими few-shot та fine-tuning і покладалися на спрощені вхідні дані для вибору моделей — що свідчить про інтелектуальну чесність, але також вказує на попередній характер цього бенчмарку.

Один результат варто відзначити для скептиків: показники AUPRC значно нижчі за AUROC для обох моделей. Llama 3.1 на BBC News досягає AUROC 0,8612, але лише 0,3960 AUPRC, що відображає дисбаланс класів у однокласовій постановці задачі. В умовах високоточного аудиту AUPRC є більш значущою метрикою, і тут картина менш оптимістична.

Чому це важливо для фінансового ШІ

Програма Bean Labs включає два сценарії виявлення аномалій: відстеження нетипових записів у бухгалтерській книзі в реальному часі (табличні, структуровані дані) та позначення підозрілого описового тексту в інвойсах, меморандумах або тікетах підтримки (неструктурований NLP). AD-LLM безпосередньо стосується другого випадку і дає нам реалістичну верхню межу: GPT-4o може в режимі zero-shot виявляти тематичні аномалії в тексті з AUROC вище 0,93 на чистих, збалансованих наборах даних. Це корисний орієнтир, проте аномалії в описах бухгалтерських книг тонші — опис інвойса, що описує рутинну послугу, але належить постачальнику з підозрілими паттернами, не є проблемою тематичної класифікації. Бенчмарк дає початкову точку, а не відповідь.

Висновки щодо вибору моделі цікаві з точки зору дизайну систем. Мрія про те, щоб запитати у LLM: «який детектор аномалій мені слід використати для цього набору даних?» і отримати надійну відповідь, поки що не збувається. Це означає, що вибір між тонким налаштуванням у стилі AnoLLM, причинно-наслідковими промптами в стилі CausalTAD або класичним методом вбудовування все ще потребує людського судження або систематичної емпіричної оцінки — це не можна делегувати раднику на базі LLM.

Що почитати далі

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — супутній бенчмарк від тієї ж групи, що охоплює вісім наборів даних і 19 алгоритмів; надає ширший контекст класичних базових моделей, який не може забезпечити AD-LLM з його п’ятьма наборами даних.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — огляд повного ландшафту підходів до виявлення аномалій на основі LLM для тексту, зображень та таблиць; допомагає зрозуміти місце AD-LLM відносно попередніх робіт.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — табличний аналог; порівняння його підходу на основі ймовірності з zero-shot стратегією AD-LLM на основі промптів прояснює, яка парадигма більше підходить для записів у книзі Beancount.