AD-LLM 基准测试:GPT-4o 在文本异常检测中零样本 AUROC 达到 0.93+
本系列的最后两篇文章介绍了 AnoLLM 和 CausalTAD —— 针对表格数据异常检测的微调和提示词工程方法。在将其中任何一种部署到生产规模之前,您需要了解大语言模型(LLM)在更广泛的异常检测范式中的实际地位。这正是 AD-LLM 的明确目标,它从三个不同的角色对 LLM 进行了基准测试:零样本检测器、数据增强引擎和模型选择顾问。虽然重点是 NLP 文本数据而非表格账本条目,但其方法论经验是可以借鉴的。
论文内容
来自南加州大学(USC)和德克萨斯 A&M 大学(Texas A&M)的 Tiankai Yang、Yi Nian 及其同事推出了 AD-LLM (arXiv:2412.11142, ACL Findings 2025),这是第一个在 NLP 数据集上系统评估 LLM 在三种异常检测范式中表现的基准。设置是一类分类(one-class classification):训练数据仅包含正常样本,模型必须在测试时标记异常。五个数 据集 —— AG News、BBC News、IMDB Reviews、N24 News 和 SMS Spam —— 均源自文本分类任务,并将其中一个类别指定为异常。论文对比了 GPT-4o 和 Llama 3.1 8B Instruct 与 18 种传统的无监督基准模型,涵盖了端到端方法(CVDD、DATE)和两步走的“嵌入+检测器”组合(OpenAI embeddings + LUNAR、LOF、孤立森林等)。
核心观点
- 零样本检测在文本领域表现良好。 GPT-4o 在五个数据集的“正常+异常”设置中取得了 0.9293–0.9919 的 AUROC 分数;Llama 3.1 达到了 0.8612–0.9487。表现最好的传统基准 OpenAI + LUNAR 在 AG News 上的得分约为 0.92 —— GPT-4o 在无需任何训练的情况下即可与之匹敌或超越。
- 合成增强具有持续但微小的帮助。 LLM 生成的合成样本在所有五个数据集上都改进了 OpenAI + LUNAR 流水线。类别描述增强也改进了大多数基准模型,尽管收益并不均衡 —— Llama 3.1 在 IMDB Reviews 上将 AUROC 提高了 +0.07,但其他地方的效果较小。
- 模型选择是薄弱环节。 GPT-o1-preview 推荐的模型在大多数数据集上超过了平均基准性能,有时甚至接近最佳方法(例如在 IMDB Reviews 和 SMS Spam 上)。但它从未能可靠地识别出表现最好的模型,作者也承认推荐是基于缺乏数据集特定统计数据的简单输入。
- 开源与专有模型之间的差距是真实的。 根据数据集的不同,GPT-4o 对 Llama 3.1 8B 的 AUROC 领先优势为 4–13 个点,这一差距与零样本表格异常检测论文中看到的模式一致。
- NLP 异常检测仍缺乏权威基准。 仅 使用源自分类语料库的五个数据集显得有些单薄。配套的 NLP-ADBench 论文(EMNLP Findings 2025)扩展到了八个数据集和 19 种算法,但仍使用“语义类别即异常”的构建方式,这使得这些任务显得有些牵强。
哪些结论站得住脚,哪些站不住
零样本检测的发现是可信的。在不需要针对标记异常数据进行微调的情况下,将 LLM 作为评分器使用是非常有效的,尤其是当异常类别在语义上具有一致性时 —— 垃圾邮件与正常短信的区别,训练良好的语言模型是可以理解的。AUROC 数值很高,而且与强大的基于 OpenAI 嵌入的基准模型进行的对比也是公平的。
然而,其范围之窄被论文淡化了。所有五个数据集都将异常编码为不同的“主题类别” —— 垃圾邮件与合法短信、来自特定出版商的新闻与分布内媒体。这意味着 LLM 本质上是在进行主题分类,而这正是它被明确预训练过的任务。该基准测试不包括单一类别内的语义异常(例如,同一账户类型内的异常交易),而这恰恰是金融审计中真正重要的异常类型。
数据增强和模型选择任务是在相同的五个数据集上评估的,因此论文最终只是在基准测试 LLM 是否能让同一个窄域问题的不同切面变得略好一点。作者坦率地列出了六个局限性 —— 包括他们仅测试了 LLM 的子集、排除了少样本和微调方案,以及模型选择依赖于简单的输入 —— 这在学术上是诚实的,但也标志着该基准测试是多么初步。
一个值得怀疑者关注的结果是:两个模 型的 AUPRC 分数都大幅低于 AUROC。Llama 3.1 在 BBC News 上的 AUROC 达到 0.8612,但 AUPRC 仅为 0.3960,反映了一类设置中的类别不平衡。在要求高精确度的审计场景中,AUPRC 是更有意义的指标,而在这里,情况就不那么乐观了。
为什么这对金融 AI 很重要
Bean Labs 的议程涉及两个异常检测用例:实时捕获异常账本条目(表格化、结构化)以及标记发票、备忘录或支持工单中的可疑描述文本(非结构化 NLP)。AD-LLM 直接针对第二种情况,并为我们提供了一个现实的上限:GPT-4o 在干净、平衡的数据集上,零样本检测文本中主题级异常的 AUROC 可以达到 0.93 以上。这是一个有用的先验知识,但账本摘要异常更为微妙 —— 一个描述常规服务但属于被标记为可疑模式供应商的发票备忘录,并不是一个主题分类问题。该基准提供了一个起点,而不是答案。
模型选择的发现对系统设计也有独特的启发。向 LLM 询问“我应该在这个数据集上使用哪个异常检测器?”并获得可靠答案的梦想尚未实现。这意味着在类 AnoLLM 的微调、类 CausalTAD 的因果提示或经典的嵌入方法之间做出选择,仍需要人类的判断或系统的实证评估 —— 这不能委托给 LLM 顾问。
延伸阅读
- NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) —— 同一团队的配套基准测试,涵盖了八个数据集和 19 种算法;提供了 AD-LLM 五个数据集范围无法涵盖的更广泛的经典基准背景。
- Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) —— 调查了涵盖文本、图像和表格模态的基于 LLM 的异常检测(AD)方法的完整格局;补充了 AD-LLM 相对于先前工作所处位置的背景。
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) —— 表格数据的对应研究;将其基于似然的方法与 AD-LLM 基于提示词的零样本策略进行比较,可以阐明哪种范式更适合 Beancount 账本条目。
