Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

3 июля 2026 г. · 7 мин чтения

Mike Thrift

Marketing Manager

Предыдущие три записи в этой ветке были посвящены AnoLLM, CausalTAD и AD-LLM — каждая из которых нацелена именно на обнаружение аномалий в табличных данных. Этот обзор Руияо Сюя и Кайзе Дина, принятый на NAACL 2025 Findings, должен был связать эти нити в единую карту ландшафта. Я ожидал таксономию, которая прояснит пространство проектирования; то, что я получил, — это в основном обзор обнаружения аномалий на изображениях и видео с тонким налетом общности.

Статья

2026-07-03-llm-anomaly-ood-detection-survey %3A%20%D1%81%D0%B8%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D1%82%D0%B0%D0%BA%D1%81%D0%BE%D0%BD%D0%BE%D0%BC%D0%B8%D1%8F%2C%20%D0%BE%D1%82%D1%81%D1%83%D1%82%D1%81%D1%82%D0%B2%D0%B8%D0%B5%20%D0%BE%D1%85%D0%B2%D0%B0%D1%82%D0%B0%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%87%D0%BD%D1%8B%D1%85%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85)

В обзоре Сюя и Дина (arXiv:2409.01980) предлагается разделить обнаружение аномалий и данных вне распределения (OOD) на базе LLM на два высокоуровневых класса: LLM для обнаружения (LLMs for Detection), где модель напрямую идентифицирует аномалии, и LLM для генерации (LLMs for Generation), где модель дополняет обучающие данные или создает объяснения на естественном языке, которые передаются нижестоящему детектору. Каждый класс подразделяется далее. Обнаружение делится на методы на основе промптов (замороженные или дообученные LLM, опрашиваемые с помощью текстовых промптов) и контрастивные методы (модели семейства CLIP, которые оценивают степень аномальности путем сравнения фрагментов изображений с текстовыми описаниями). Генерация делится на методы, ориентированные на аугментацию (создание псевдо-OOD меток или синтетических выборок меньшинства), и методы, ориентированные на объяснение (создание логических обоснований на естественном языке для помеченных событий).

Сопутствующий список литературы на GitHub охватывает примерно 39 работ: 24 по обнаружению, 10 по аугментации и 5 по объяснению.

Ключевые идеи

Контрастивные методы доминируют в обнаружении аномалий на изображениях. WinCLIP достигает 91,8% и 85,1% AUROC в классификации и сегментации аномалий в режиме zero-shot на датасете MVTec-AD без какой-либо специфической настройки под датасет, что сопоставимо с методами обучения с учителем.
Замороженные LLM сталкиваются с модальным разрывом в нетекстовых данных. В обзоре прямо отмечается, что «прямое использование замороженных LLM для обнаружения аномалий или OOD в различных типах данных часто приводит к субоптимальной производительности из-за врожденного разрыва между текстом и другими модальностями данных».
LoRA и адаптерная настройка позволяют преодолеть этот разрыв. Методы вроде AnomalyGPT и AnomalyCLIP используют эффективные по параметрам техники дообучения и существенно превосходят свои «замороженные» аналоги.
Генерация как аугментация используется недостаточно. Псевдо-OOD метки на уровне подписей, созданные BLIP-2, превосходят альтернативы на уровне слов и описаний при обнаружении OOD, что указывает на важность богатого текстового надзора даже для визуальных задач.
Генерация с упором на объяснения — самая новая подкатегория. Системы вроде Holmes-VAD и VAD-LLaMA выходят за рамки бинарных флагов и генерируют обоснования аномальных событий на естественном языке, в основном для видео с камер наблюдения.
Табличные данные почти не представлены. В обзоре цитируется один метод — «Tabular» Ли и др. (2024), который преобразует строки таблиц в текстовые промпты и дообучает модель с помощью LoRA, но сравнительные показатели не приводятся.

Что подтверждается, а что — нет

Таксономия из двух классов действительно логична, и я, вероятно, буду использовать ее для структурирования собственных мыслей. Различие между обнаружением и генерацией отражает реальную архитектурную развилку: вы либо просите LLM классифицировать данные напрямую, либо используете её для создания лучшего обучающего сигнала для традиционного детектора.

Что я не могу принять, так это позиционирование статьи как широкого обзора обнаружения аномалий. Содержание подавляюще сконцентрировано на изображениях промышленных дефектов (MVTec-AD, VisA) и видео наблюдения (UCF-Crime, XD-Violence). Из примерно 39 каталогизированных работ почти ни одна не касается табличных или финансовых данных. Временные ряды удостоились нескольких упоминаний. Табличные данные — одного предложения. Это не карта ландшафта для Bean Labs — это карта ландшафта для исследователей компьютерного зрения, которые хотят использовать CLIP для поиска дефектов.

Авторы признают, что «ограничения по объему не позволяют привести подробные сводки метрик», что является вежливым способом сказать, что сравнительных таблиц нет. Для обзорной статьи отсутствие количественного синтеза — существенный пробел. Читатели не могут использовать эту работу, чтобы решить, какая парадигма лучше для их сценария использования, не изучая каждую цитируемую статью в отдельности.

Проблема галлюцинаций указана как открытый вопрос, но её рассмотрение поверхностно — упоминается риск без анализа того, какие парадигмы обнаружения более или менее подвержены ему, или как генерация объяснений может сделать галлюцинации более заметными при проверке человеком.

Почему это важно для финансового ИИ

Две подкатегории актуальны, несмотря на перекос в сторону изображений. Во-первых, подкатегория генерации с упором на объяснения — это именно то, что нужно агентам аудита Beancount: не просто флаг о том, что бухгалтерская проводка аномальна, а предложение на естественном языке, объясняющее почему. Финансовые аудиторы не могут работать с бинарным выводом. Во-вторых, почти полное молчание обзора по поводу обнаружения аномалий в таблицах само по себе информативно — оно подтверждает, что направление AnoLLM, CausalTAD и AD-LLM, за которым я слежу, является передовым, а не проторенным, и что разработка инструментов аудита на базе LLM для регистров Beancount требует синтеза идей из области компьютерного зрения, которые еще не были перенесены в табличную среду.

Компромисс между промптингом и дообучением — самый практически применимый вывод: zero-shot промптинг работает как первое приближение, но страдает от модального разрыва; дообучение на базе LoRA на репрезентативных размеченных примерах закрывает этот разрыв. Для развертывания Beancount с размеченными примерами аномалий из прошлых периодов путь дообучения кажется более надежным, чем чистый промптинг.

Что читать дальше

"Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — использует эмбеддинги sentence-transformer от LLM для реальных записей главной книги; прямой мост от структуры этого обзора к табличному использованию в Beancount.
"Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — мультиагентный конвейер для обнаружения аномалий в рыночных данных; паттерн мультиагентной координации может быть перенесен на аудит регистров.
AnomalyGPT (arXiv:2308.15366) — дообученная LVLM для промышленного обнаружения аномалий с локализацией на уровне пикселей; чтение этой статьи проясняет, что именно означает «настройка LLM для обнаружения» с точки зрения архитектуры, что в обзоре описывается, но не объясняется.

Share on Twitter Follow @beancount_io

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Статья

Ключевые идеи

Что подтверждается, а что — нет

Почему это важно для финансового ИИ

Что читать дальше

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация

Статья​

Ключевые идеи​

Что подтверждается, а что — нет​

Почему это важно для финансового ИИ​

Что читать дальше​

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация

Статья

Ключевые идеи

Что подтверждается, а что — нет

Почему это важно для финансового ИИ

Что читать дальше