AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie
AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.
