AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung
AD-LLM testet GPT-4o und Llama 3.1 8B in drei Rollen der Anomalieerkennung – Zero-Shot-Detektor, Daten-Augmentierer und Modell-Selektor – auf fünf NLP-Datensätzen; GPT-4o erreicht AUROC 0,93–0,99 Zero-Shot, doch die LLM-basierte Modellauswahl bleibt unzuverlässig, mit direkten Auswirkungen auf KI in der Finanzprüfung.
