Перейти к контенту

Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

В последних двух статьях этой серии мы рассматривали AnoLLM и CausalTAD — подходы на основе дообучения (fine-tuning) и промпт-инжиниринга для обнаружения аномалий в табличных данных. Прежде чем внедрять какой-либо из них в промышленную эксплуатацию, необходимо понять, на каком этапе развития сейчас находятся LLM в широком спектре парадигм обнаружения аномалий. Именно в этом заключается цель AD-LLM — бенчмарка, оценивающего LLM в трех различных ролях: детектора zero-shot, движка для аугментации данных и советника по выбору модели. Основное внимание уделяется текстовым данным NLP, а не табличным записям в бухгалтерских книгах, однако методологические уроки вполне применимы.

Научная работа

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Тянькай Ян, И Нянь и их коллеги из USC и Texas A&M представили AD-LLM (arXiv:2412.11142, ACL Findings 2025) — первый бенчмарк для систематической оценки LLM в трех парадигмах обнаружения аномалий на наборах данных NLP. Условия задачи — одноклассовая классификация: обучающие данные содержат только нормальные образцы, а модель должна выявлять аномалии во время тестирования. Пять наборов данных — AG News, BBC News, IMDB Reviews, N24 News и SMS Spam — получены из задач классификации текста, где одна из категорий обозначена как аномальная. В работе сравниваются две LLM, GPT-4o и Llama 3.1 8B Instruct, с 18 традиционными неконтролируемыми (unsupervised) базовыми моделями, которые включают как сквозные методы (CVDD, DATE), так и двухэтапные комбинации «эмбеддинги + детектор» (эмбеддинги OpenAI + LUNAR, LOF, Isolation Forest и др.).

Основные идеи

  • Обнаружение в режиме Zero-shot хорошо работает для текста. GPT-4o показывает AUROC от 0,9293 до 0,9919 на пяти наборах данных в режиме «Норма+Аномалия»; Llama 3.1 достигает 0,8612–0,9487. Лучшая традиционная базовая модель, OpenAI + LUNAR, набирает около 0,92 на AG News — GPT-4o сравнивается с ней или превосходит её без всякого обучения.
  • Синтетическая аугментация помогает стабильно, но умеренно. Синтетические образцы, сгенерированные LLM, улучшают конвейер OpenAI + LUNAR на всех пяти наборах данных. Аугментация описаний категорий также улучшает большинство базовых моделей, хотя результаты неоднородны — Llama 3.1 увеличивает AUROC на +0,07 на IMDB Reviews, но в других местах прирост меньше.
  • Выбор модели — слабое звено. GPT-o1-preview рекомендует модели, которые превосходят среднюю базовую производительность на большинстве наборов данных, а иногда приближаются к лучшему методу (например, на IMDB Reviews и SMS Spam). Однако она ни разу не смогла надежно определить лучшую модель, и авторы признают, что рекомендации основаны на упрощенных входных данных, в которых отсутствуют специфические статистические показатели датасета.
  • Разрыв между открытым ПО и проприетарными моделями реален. Преимущество GPT-4o по AUROC над Llama 3.1 8B составляет 4–13 пунктов в зависимости от набора данных. Этот разрыв соответствует паттерну, наблюдаемому в работах по обнаружению аномалий в табличных данных в режиме zero-shot.
  • В области обнаружения аномалий NLP все еще не хватает окончательного бенчмарка. Пять наборов данных, производных от корпусов для классификации, — это мало. Сопутствующая работа NLP-ADBench (EMNLP Findings 2025) расширяет список до восьми наборов данных и 19 алгоритмов, но по-прежнему использует ту же конструкцию «семантическая категория как аномалия», что делает эти задачи несколько искусственными.

Что подтверждается, а что — нет

Результаты zero-shot выглядят убедительно. Использование LLM в качестве оценщиков без дообучения на размеченных данных аномалий действительно полезно, когда класс аномалий семантически связен — спам-сообщение отличается от обычного SMS так, как это понимает хорошо обученная языковая модель. Показатели AUROC высоки, а сравнение с сильными базовыми моделями на основе эмбеддингов OpenAI является честным.

Однако сфера применения ограничена, что в статье несколько приуменьшается. Во всех пяти наборах данных аномалии закодированы как иная тематическая категория — спам против легитимных SMS, новости от стороннего издателя против новостей из основной выборки. Это означает, что LLM, по сути, выполняет тематическую классификацию — задачу, на которой она была специально предварительно обучена. Бенчмарк не включает семантические аномалии внутри одной категории (например, необычные транзакции внутри одного типа счета), а ведь именно такие аномалии важны для финансового аудита.

Задачи аугментации данных и выбора моделей оцениваются на тех же пяти датасетах, поэтому статья в итоге проверяет, могут ли LLM немного улучшить решение одной и той же узкой проблемы. Авторы честно перечисляют шесть ограничений — включая то, что они тестируют лишь подмножество LLM, исключают режимы few-shot и дообучения, и полагаются на упрощенные входные данные для выбора моделей. Это подчеркивает предварительный характер данного бенчмарка.

Один результат стоит отметить для скептиков: показатели AUPRC существенно ниже AUROC для обеих моделей. Llama 3.1 на BBC News достигает AUROC 0,8612, но лишь 0,3960 AUPRC, что отражает дисбаланс классов в одноклассовой постановке задачи. В контексте высокоточного аудита AUPRC является более значимой метрикой, и здесь картина выглядит менее радужной.

Почему это важно для ИИ в финансах

Повестка Bean Labs включает два сценария обнаружения аномалий: выявление необычных записей в бухгалтерской книге в реальном времени (табличные, структурированные данные) и маркировка подозрительного повествовательного текста в инвойсах, меморандумах или тикетах поддержки (неструктурированный NLP). AD-LLM напрямую относится ко второму случаю и дает нам реалистичный «потолок»: GPT-4o может в режиме zero-shot обнаруживать тематические аномалии в тексте с AUROC выше 0,93 на чистых, сбалансированных данных. Это полезный ориентир, но аномалии в описаниях проводок более тонкие: меморандум к счету, который описывает рутинную услугу, но относится к поставщику, замеченному в подозрительных схемах, не является проблемой тематической классификации. Бенчмарк дает отправную точку, но не готовый ответ.

Вывод о выборе моделей интересен отдельно для проектирования систем. Мечта о том, чтобы спросить у LLM «какой детектор аномалий мне использовать для этого набора данных?» и получить надежный ответ, пока не сбывается. Это означает, что выбор между дообучением в стиле AnoLLM, причинно-следственными промптами в стиле CausalTAD или классическим методом эмбеддингов по-прежнему требует человеческого суждения или систематической эмпирической оценки — это нельзя делегировать советнику на базе LLM.

Что почитать дальше

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — сопутствующий бенчмарк от той же группы, охватывающий восемь наборов данных и 19 алгоритмов; предоставляет более широкий контекст классических базовых моделей, который не может обеспечить AD-LLM.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — обзор всего ландшафта подходов к обнаружению аномалий на базе LLM для текста, изображений и таблиц; помогает понять место AD-LLM относительно предыдущих работ.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — табличный аналог; сравнение его подхода на основе логарифмического правдоподобия (likelihood) со стратегией zero-shot на основе промптов в AD-LLM проясняет, какая парадигма больше подходит для записей в реестре Beancount.