Zum Hauptinhalt springen

AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Die letzten beiden Beiträge dieser Serie behandelten AnoLLM und CausalTAD – fein abgestimmte (fine-tuned) und durch Prompt-Engineering optimierte Ansätze zur tabellarischen Anomalieerkennung. Bevor man eines von beiden im produktiven Maßstab einsetzt, muss man wissen, wo LLMs tatsächlich in einem breiteren Spektrum von Paradigmen der Anomalieerkennung stehen. Das ist das ausdrückliche Ziel von AD-LLM, das LLMs in drei verschiedenen Rollen testet: als Zero-Shot-Detektor, als Engine zur Daten-Augmentierung und als Berater bei der Modellauswahl. Der Fokus liegt eher auf NLP-Textdaten als auf tabellarischen Buchungssätzen, aber die methodischen Lehren lassen sich übertragen.

Das Paper

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Tiankai Yang, Yi Nian und Kollegen von der USC und Texas A&M führen AD-LLM ein (arXiv:2412.11142, ACL Findings 2025), den ersten Benchmark zur systematischen Evaluierung von LLMs über drei Paradigmen der Anomalieerkennung auf NLP-Datensätzen hinweg. Der Rahmen ist die Ein-Klassen-Klassifizierung: Die Trainingsdaten enthalten nur normale Stichproben, und das Modell muss zum Testzeitpunkt Anomalien markieren. Die fünf Datensätze – AG News, BBC News, IMDB Reviews, N24 News und SMS Spam – stammen alle aus Textklassifizierungsaufgaben, bei denen eine Kategorie als anomal festgelegt wurde. Das Paper vergleicht zwei LLMs, GPT-4o und Llama 3.1 8B Instruct, mit 18 traditionellen unüberwachten Baselines, die von End-to-End-Methoden (CVDD, DATE) bis hin zu zweistufigen Kombinationen aus Einbettung und Detektor (OpenAI-Embeddings + LUNAR, LOF, Isolation Forest usw.) reichen.

Kernideen

  • Zero-Shot-Erkennung funktioniert gut für Text. GPT-4o erzielt einen AUROC-Wert von 0,9293–0,9919 über die fünf Datensätze im Normal+Anomalie-Szenario; Llama 3.1 erreicht 0,8612–0,9487. Die beste traditionelle Baseline, OpenAI + LUNAR, liegt bei etwa 0,92 auf AG News – GPT-4o erreicht oder übertrifft dies ohne jegliches Training.
  • Synthetische Augmentierung hilft konsistent, aber bescheiden. Durch LLMs generierte synthetische Stichproben verbessern die OpenAI + LUNAR Pipeline auf allen fünf Datensätzen. Auch die Augmentierung von Kategoriebeschreibungen verbessert die meisten Baselines, wenngleich die Gewinne ungleichmäßig sind – Llama 3.1 verbessert den AUROC bei IMDB Reviews um +0,07, aber andernorts sind die Ergebnisse geringer.
  • Modellauswahl ist das schwächste Glied. GPT-o1-preview empfiehlt Modelle, welche die durchschnittliche Baseline-Performance auf den meisten Datensätzen übertreffen und gelegentlich an die beste Methode heranreichen (z. B. bei IMDB Reviews und SMS Spam). Aber es identifiziert nie zuverlässig den Spitzenreiter, und die Autoren räumen ein, dass die Empfehlungen auf vereinfachten Eingaben basieren, denen datensatzspezifische Statistiken fehlen.
  • Die Lücke zwischen Open-Source und proprietären Modellen ist real. Der AUROC-Vorteil von GPT-4o gegenüber Llama 3.1 8B beträgt je nach Datensatz 4–13 Punkte, eine Differenz, die mit dem Muster in Veröffentlichungen zur tabellarischen Zero-Shot-Anomalieerkennung übereinstimmt.
  • Der NLP-Anomalieerkennung fehlt noch immer ein definitiver Benchmark. Fünf Datensätze, die alle von Klassifizierungskorpora abgeleitet sind, sind wenig. Das begleitende NLP-ADBench-Paper (EMNLP Findings 2025) erweitert dies auf acht Datensätze und 19 Algorithmen, nutzt aber immer noch dieselbe Konstruktion (semantische Kategorie als Anomalie), die diese Aufgaben etwas künstlich macht.

Was Bestand hat – und was nicht

Die Zero-Shot-Ergebnisse sind glaubwürdig. Die Verwendung von LLMs als Scorer ohne Feinabstimmung auf markierten Anomaliedaten ist wirklich nützlich, wenn die Anomalieklasse semantisch kohärent ist – eine Spam-Nachricht unterscheidet sich von einer legitimen Nachricht auf eine Weise, die ein gut trainiertes Sprachmodell versteht. Die AUROC-Zahlen sind hoch, und der Vergleich mit starken Baselines auf Basis von OpenAI-Einbettungen ist fair.

Der Umfang ist jedoch enger, als das Paper suggeriert. In allen fünf Datensätzen werden Anomalien als eine andere Themenkategorie kodiert – Spam gegenüber legitimen SMS, Nachrichten eines zurückgehaltenen Herausgebers gegenüber In-Distribution-Quellen. Das bedeutet, dass das LLM im Grunde eine Themenklassifizierung durchführt, eine Aufgabe, für die es explizit vortrainiert wurde. Der Benchmark enthält keine semantischen Anomalien innerhalb einer einzelnen Kategorie (z. B. ungewöhnliche Transaktionen innerhalb desselben Kontotyps), was genau die Art von Anomalie ist, die für die Finanzprüfung relevant ist.

Die Aufgaben zur Daten-Augmentierung und Modellauswahl werden auf denselben fünf Datensätzen evaluiert, sodass das Paper letztlich testet, ob LLMs leicht unterschiedliche Ausschnitte desselben engen Problems geringfügig verbessern können. Die Autoren listen offen sechs Einschränkungen auf – darunter, dass sie nur eine Untergruppe von LLMs testen, Few-Shot- und Fine-Tuning-Regime ausschließen und sich bei der Modellauswahl auf vereinfachte Eingaben verlassen –, was intellektuell ehrlich ist, aber auch zeigt, wie vorläufig dieser Benchmark ist.

Ein Ergebnis, das für Skeptiker erwähnenswert ist: Die AUPRC-Werte sind für beide Modelle wesentlich niedriger als die AUROC-Werte. Llama 3.1 erreicht bei BBC News einen AUROC von 0,8612, aber nur einen AUPRC von 0,3960, was das Klassen-Ungleichgewicht im Ein-Klassen-Setup widerspiegelt. In Kontexten der Hochpräzisionsprüfung ist AUPRC die aussagekräftigere Metrik, und hier ist das Bild weniger schmeichelhaft.

Warum das für Finanz-KI wichtig ist

Die Agenda von Bean Labs umfasst zwei Anwendungsfälle für die Anomalieerkennung: das Erfassen ungewöhnlicher Buchungssätze in Echtzeit (tabellarisch, strukturiert) und das Markieren verdächtiger narrativer Texte in Rechnungen, Memos oder Support-Tickets (unstrukturiert, NLP). AD-LLM spricht den zweiten Fall direkt an und liefert uns eine realistische Obergrenze: GPT-4o kann Anomalien auf Themenebene in Texten mit einem AUROC von über 0,93 auf sauberen, ausgewogenen Datensätzen im Zero-Shot-Verfahren erkennen. Das ist ein nützlicher Ausgangswert, aber Anomalien in Buchungstexten sind subtiler – ein Rechnungsmemo, das eine Routinedienstleistung beschreibt, aber zu einem Kreditor gehört, der wegen verdächtiger Muster markiert wurde, ist kein Problem der Themenklassifizierung. Der Benchmark bietet einen Ausgangspunkt, keine fertige Lösung.

Das Ergebnis zur Modellauswahl ist separat für das Systemdesign interessant. Der Traum, ein LLM zu fragen "Welchen Anomaliedetektor soll ich für diesen Datensatz verwenden?" und eine zuverlässige Antwort zu erhalten, erfüllt sich noch nicht. Das bedeutet, dass die Wahl zwischen Feinabstimmung im Stil von AnoLLM, kausalem Prompting im Stil von CausalTAD oder einer klassischen Einbettungsmethode weiterhin menschliches Urteilsvermögen oder systematische empirische Evaluierung erfordert – sie kann nicht an einen LLM-Berater delegiert werden.

Was man als Nächstes lesen sollte

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) – der begleitende Benchmark derselben Gruppe, der acht Datensätze und 19 Algorithmen abdeckt; er bietet den breiteren Kontext klassischer Baselines, den der fünf Datensätze umfassende Rahmen von AD-LLM nicht bieten kann.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) – gibt einen Überblick über die gesamte Landschaft der LLM-basierten AD-Ansätze für Text-, Bild- und tabellarische Modalitäten; ordnet AD-LLM in das Verhältnis zu früheren Arbeiten ein.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) – das tabellarische Gegenstück; der Vergleich seines Likelihood-basierten Ansatzes mit der Prompt-basierten Zero-Shot-Strategie von AD-LLM verdeutlicht, welches Paradigma für Beancount-Buchungssätze besser geeignet ist.