跳到主要内容

LLM 异常检测综述 (NAACL 2025):强大的分类体系,缺失的表格数据覆盖

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

本主题之前的三个条目介绍了 AnoLLM、CausalTAD 和 AD-LLM——每个都专门针对表格异常检测。Ruiyao Xu 和 Kaize Ding 这篇被 NAACL 2025 Findings 接收的综述,本应将这些线索整合进一张统一的蓝图。我原本期待一个能厘清设计空间的分类体系;然而我得到的主要是对图像和视频异常检测的综述,仅带有一层微薄的普适性外衣。

论文内容

2026-07-03-llm-anomaly-ood-detection-survey

Xu 和 Ding 的综述 (arXiv:2409.01980) 建议将基于 LLM 的异常和分布外 (OOD) 检测分为两个高级类别:用于检测的 LLM (LLMs for Detection),模型直接识别异常;以及 用于生成的 LLM (LLMs for Generation),模型增强训练数据或生成供下游检测器使用的自然语言解释。每个类别进一步细分。检测分为基于提示的方法 (使用自然语言提示查询冻结或微调的 LLM) 和基于对比的方法 (通过比较图像块与文本描述来评估异常程度的 CLIP 系列模型)。生成分为以增强为中心的方法 (生成伪 OOD 标签或合成少数样本) 和以解释为中心的方法 (为标记的事件生成自然语言理由)。

随附的 GitHub 阅读列表涵盖了大约 39 篇论文:24 篇关于检测,10 篇关于增强,5 篇关于解释。

核心观点

  • 基于对比的方法在图像异常检测中占据主导地位。 WinCLIP 在 MVTec-AD 的零样本异常分类和分割上分别达到了 91.8% 和 85.1% 的 AUROC,无需任何特定数据集的微调,可与在该数据集上训练的有监督方法相媲美。
  • 冻结的 LLM 在处理非文本数据时遇到了模态鸿沟。 综述明确指出,“直接提示冻结的 LLM 在各种数据类型上进行异常或 OOD 检测,通常由于文本与其他数据模态之间固有的模态鸿沟而导致次优性能。”
  • LoRA 和适配器微调弥补了大部分差距。 像 AnomalyGPT 和 AnomalyCLIP 这样采用参数高效技术进行微调的方法,表现明显优于其冻结的同类模型。
  • 作为增强的生成尚未得到充分利用。 BLIP-2 生成的字幕级伪 OOD 标签在 OOD 检测中优于单词级和描述级备选方案,这表明即使对于视觉任务,更丰富的文本监督也很重要。
  • 以解释为中心的生成是最新的子类别。 像 Holmes-VAD 和 VAD-LLaMA 这样的系统超出了二元标记的范畴,为异常事件生成自然语言理由,主要应用于监控视频。
  • 表格数据几乎缺失。 综述引用了一种方法——Li 等人 (2024) 的 “Tabular”——它将表格行转换为文本提示并使用 LoRA 进行微调,但没有提供对比数据。

哪些观点站得住脚,哪些站不住

这两个类别的分类体系确实很简洁,我可能会用它来整理我自己的思路。检测与生成的区别捕捉到了一个真实的架构分叉:你要么要求 LLM 直接分类,要么使用它为传统检测器构建更好的训练信号。

我不能接受的是,这篇论文将其框架设定为广泛的异常检测综述。其覆盖范围压倒性地集中在工业缺陷图像 (MVTec-AD, VisA) 和监控视频 (UCF-Crime, XD-Violence) 上。在编目的约 39 篇论文中,几乎没有一篇涉及表格或金融数据。时间序列得到了几处引用。表格仅得到一句话。这对于 Bean Labs 来说不是一张蓝图——这是给想要使用 CLIP 进行缺陷检测的计算机视觉研究人员的蓝图。

作者承认“由于篇幅限制,无法进行详细的指标总结”,这是一种委婉的说法,指没有对比表。对于一篇综述论文来说,缺乏定量综合是一个重大缺陷。读者在不逐一追踪每篇被引用论文的情况下,无法利用本文决定哪种范式更适合其用例。

幻觉挑战被列为一个开放性问题,但处理得比较肤浅——它指出了风险,却未分析哪些检测范式更易受影响或不易受影响,也未分析以解释为中心的生成如何通过人工审核使幻觉更易被检测。

为什么这对金融 AI 很重要

尽管图像覆盖比例很高,但有两个子类别具有相关性。首先,以解释为中心的生成子类别正是 Beancount 审计代理所需要的:不仅仅是一个分录异常的标记,而是一个解释原因的自然语言句子。财务审计人员无法根据二元输出采取行动。其次,综述对表格异常检测几乎完全沉默,这本身就很有启发性——它证实了我一直关注的 AnoLLM、CausalTAD 和 AD-LLM 这一线索是一个前沿领域而非成熟领域,而且为 Beancount 账簿设计基于 LLM 的审计工具需要综合尚未迁移到表格环境的视觉异常检测见解。

提示与微调的权衡是最具操作性的发现:零样本提示可以作为第一步近似,但受困于模态鸿沟;基于代表性标记样本的 LoRA 微调可以弥补差距。对于拥有来自历史账簿的标记异常示例的 Beancount 部署,微调路径看起来比纯提示更可靠。

延伸阅读建议

  • "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) —— 在真实的总账分录上使用 LLM 句嵌入;这是从本综述框架到 Beancount 表格用例的直接桥梁。
  • "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) —— 用于市场数据异常检测的多智能体流水线;多智能体协调模式可能会延续到账簿审计。
  • AnomalyGPT (arXiv:2308.15366) —— 用于工业异常检测的微调 LVLM,具有像素级定位功能;阅读本文可以阐明“用于检测的 LLM 微调”在架构上的实际含义,综述描述了这一点但未作解释。