LLM 异常检测综述 (NAACL 2025)：强大的分类体系，缺失的表格数据覆盖

2026年7月3日 · 阅读需 6 分钟

Mike Thrift

Marketing Manager

本主题之前的三个条目介绍了 AnoLLM、CausalTAD 和 AD-LLM——每个都专门针对表格异常检测。Ruiyao Xu 和 Kaize Ding 这篇被 NAACL 2025 Findings 接收的综述，本应将这些线索整合进一张统一的蓝图。我原本期待一个能厘清设计空间的分类体系；然而我得到的主要是对图像和视频异常检测的综述，仅带有一层微薄的普适性外衣。

论文内容

2026-07-03-llm-anomaly-ood-detection-survey

Xu 和 Ding 的综述 (arXiv:2409.01980) 建议将基于 LLM 的异常和分布外 (OOD) 检测分为两个高级类别：用于检测的 LLM (LLMs for Detection)，模型直接识别异常；以及 用于生成的 LLM (LLMs for Generation)，模型增强训练数据或生成供下游检测器使用的自然语言解释。每个类别进一步细分。检测分为基于提示的方法 (使用自然语言提示查询冻结或微调的 LLM) 和基于对比的方法 (通过比较图像块与文本描述来评估异常程度的 CLIP 系列模型)。生成分为以增强为中心的方法 (生成伪 OOD 标签或合成少数样本) 和以解释为中心的方法 (为标记的事件生成自然语言理由)。

随附的 GitHub 阅读列表涵盖了大约 39 篇论文：24 篇关于检测，10 篇关于增强，5 篇关于解释。

核心观点

基于对比的方法在图像异常检测中占据主导地位。 WinCLIP 在 MVTec-AD 的零样本异常分类和分割上分别达到了 91.8% 和 85.1% 的 AUROC，无需任何特定数据集的微调，可与在该数据集上训练的有监督方法相媲美。
冻结的 LLM 在处理非文本数据时遇到了模态鸿沟。 综述明确指出，“直接提示冻结的 LLM 在各种数据类型上进行异常或 OOD 检测，通常由于文本与其他数据模态之间固有的模态鸿沟而导致次优性能。”
LoRA 和适配器微调弥补了大部分差距。 像 AnomalyGPT 和 AnomalyCLIP 这样采用参数高效技术进行微调的方法，表现明显优于其冻结的同类模型。
作为增强的生成尚未得到充分利用。 BLIP-2 生成的字幕级伪 OOD 标签在 OOD 检测中优于单词级和描述级备选方案，这表明即使对于视觉任务，更丰富的文本监督也很重要。
以解释为中心的生成是最新的子类别。 像 Holmes-VAD 和 VAD-LLaMA 这样的系统超出了二元标记的范畴，为异常事件生成自然语言理由，主要应用于监控视频。
表格数据几乎缺失。 综述引用了一种方法——Li 等人 (2024) 的 “Tabular”——它将表格行转换为文本提示并使用 LoRA 进行微调，但没有提供对比数据。

哪些观点站得住脚，哪些站不住

这两个类别的分类体系确实很简洁，我可能会用它来整理我自己的思路。检测与生成的区别捕捉到了一个真实的架构分叉：你要么要求 LLM 直接分类，要么使用它为传统检测器构建更好的训练信号。

我不能接受的是，这篇论文将其框架设定为广泛的异常检测综述。其覆盖范围压倒性地集中在工业缺陷图像 (MVTec-AD, VisA) 和监控视频 (UCF-Crime, XD-Violence) 上。在编目的约 39 篇论文中，几乎没有一篇涉及表格或金融数据。时间序列得到了几处引用。表格仅得到一句话。这对于 Bean Labs 来说不是一张蓝图——这是给想要使用 CLIP 进行缺陷检测的计算机视觉研究人员的蓝图。

作者承认“由于篇幅限制，无法进行详细的指标总结”，这是一种委婉的说法，指没有对比表。对于一篇综述论文来说，缺乏定量综合是一个重大缺陷。读者在不逐一追踪每篇被引用论文的情况下，无法利用本文决定哪种范式更适合其用例。

幻觉挑战被列为一个开放性问题，但处理得比较肤浅——它指出了风险，却未分析哪些检测范式更易受影响或不易受影响，也未分析以解释为中心的生成如何通过人工审核使幻觉更易被检测。

为什么这对金融 AI 很重要

尽管图像覆盖比例很高，但有两个子类别具有相关性。首先，以解释为中心的生成子类别正是 Beancount 审计代理所需要的：不仅仅是一个分录异常的标记，而是一个解释原因的自然语言句子。财务审计人员无法根据二元输出采取行动。其次，综述对表格异常检测几乎完全沉默，这本身就很有启发性——它证实了我一直关注的 AnoLLM、CausalTAD 和 AD-LLM 这一线索是一个前沿领域而非成熟领域，而且为 Beancount 账簿设计基于 LLM 的审计工具需要综合尚未迁移到表格环境的视觉异常检测见解。

提示与微调的权衡是最具操作性的发现：零样本提示可以作为第一步近似，但受困于模态鸿沟；基于代表性标记样本的 LoRA 微调可以弥补差距。对于拥有来自历史账簿的标记异常示例的 Beancount 部署，微调路径看起来比纯提示更可靠。

延伸阅读建议

"Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) —— 在真实的总账分录上使用 LLM 句嵌入；这是从本综述框架到 Beancount 表格用例的直接桥梁。
"Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) —— 用于市场数据异常检测的多智能体流水线；多智能体协调模式可能会延续到账簿审计。
AnomalyGPT (arXiv:2308.15366) —— 用于工业异常检测的微调 LVLM，具有像素级定位功能；阅读本文可以阐明“用于检测的 LLM 微调”在架构上的实际含义，综述描述了这一点但未作解释。

Share on Twitter Follow @beancount_io

LLM 异常检测综述 (NAACL 2025)：强大的分类体系，缺失的表格数据覆盖

论文内容

核心观点

哪些观点站得住脚，哪些站不住

为什么这对金融 AI 很重要

延伸阅读建议

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文内容​

核心观点​

哪些观点站得住脚，哪些站不住​

为什么这对金融 AI 很重要​

延伸阅读建议​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文内容

核心观点

哪些观点站得住脚，哪些站不住

为什么这对金融 AI 很重要

延伸阅读建议