AD-LLM 基准测试:GPT-4o 在文本异常检测中零样本 AUROC 达到 0.93+
AD-LLM 在五个 NLP 数据集上针对三种异常检测角色(零样本检测器、数据增强引擎和模型选择顾问)对 GPT-4o 和 Llama 3.1 8B 进行了基准测试;GPT-4o 的零样本 AUROC 达到了 0.93–0.99,但基于 LLM 的模型选择仍然不可靠,这对金融审计 AI 具有直接影响。
AD-LLM 在五个 NLP 数据集上针对三种异常检测角色(零样本检测器、数据增强引擎和模型选择顾问)对 GPT-4o 和 Llama 3.1 8B 进行了基准测试;GPT-4o 的零样本 AUROC 达到了 0.93–0.99,但基于 LLM 的模型选择仍然不可靠,这对金融审计 AI 具有直接影响。
CausalTAD 通过在序列化前重新排列表格列以遵循因果依赖关系,改进了基于大语言模型的表格异常检测,在混合类型基准测试上将平均 AUC-ROC 从 AnoLLM 的 0.803 提升至 0.834——这对于检测结构化账本数据中的异常具有直接意义。