Zum Hauptinhalt springen

Zero-Shot-Anomalieerkennung mit LLMs: Wie GPT-4 bei tabellarischen Daten abschneidet

· 7 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Das AuditCopilot-Paper, das ich letzten Monat gelesen habe, benchmarkte LLMs bei der Betrugserkennung in Buchungssätzen durch Fine-Tuning auf gelabelten Anomaliedaten. Seitdem war ich neugierig, ob Zero-Shot-Prompting den Großteil des Weges ebnen könnte – ohne gelabelte Anomalien, ohne domänenspezifisches Fine-Tuning. Genau das verspricht „Anomaly Detection of Tabular Data Using LLMs“ von Li, Zhao, Qiu, Kloft, Smyth, Rudolph und Mandt (arXiv:2406.16308), ein Workshop-Paper von Mitte 2024. Das Hauptergebnis – dass GPT-4 mit klassischen transduktiven Methoden wie ECOD mithält – klang fast zu gut, also habe ich es aufmerksam gelesen.

Das Paper

2026-06-21-anomalieerkennung-tabellarische-daten-llms

Die Kernidee ist das, was die Autoren als „Batch-Ebene“-Anomalieerkennung bezeichnen. Anstatt ein Modell auf Trainingsdaten zu fitten und dann Testpunkte einzeln zu bewerten, präsentiert man dem LLM zum Inferenzzeitpunkt einen Batch von N Zeilen und bittet es zu identifizieren, welche Zeilen relativ zu den anderen im selben Batch anomal sind. Da Anomalien innerhalb eines Batches selten sind, sollte ein ausreichend fähiges Modell implizit das Mehrheitsmuster erkennen und die Ausreißer markieren. Kein Neutraining, keine gelabelten Beispiele – nur das vortrainierte Weltwissen und das In-Context-Reasoning des LLMs.

Sie evaluierten auf dem ODDS-Benchmark mit 32 Datensätzen, einer Standardsammlung für reale Probleme der tabellarischen Anomalieerkennung. Aufgrund von Kontextfenster-Limits begrenzten sie jeden Evaluations-Batch auf 150 Zeilen und 10 Spalten. Features werden Dimension für Dimension mit dem Template „Data i is x_i.“ serialisiert, und das LLM wird aufgefordert, die anomalen Indizes über jede Dimension separat zu benennen; der finale Anomalie-Score einer Zeile aggregiert, wie viele Dimensionen sie markiert haben.

Für proprietäre Modelle testen sie Zero-Shot. Bei Open-Source-Modellen (Llama2-7B, Llama2-70B, Mistral-7B) ist die Zero-Shot-Performance schwach, weshalb sie zusätzlich ein Fine-Tuning auf einem synthetischen Datensatz von 5.000 Batches vorschlagen, die aus Gauß-Mischmodellen und kategorialen Verteilungen generiert wurden – ohne dass reale Anomalie-Labels erforderlich sind. Die durch Fine-Tuning angepassten Varianten werden Llama2-AD und Mistral-AD genannt.

Kerngedanken

  • GPT-4 Zero-Shot erreicht einen durchschnittlichen AUROC von 74,1 über 32 ODDS-Datensätze hinweg, verglichen mit 75,5 bei ECOD (der besten klassischen Baseline) und 70,7 bei KNN. GPT-3.5 hinkt mit 68,3 hinterher.
  • Llama2-7B Zero-Shot erreicht nur 51,1 – was praktisch Zufall entspricht –, aber Fine-Tuning auf synthetischen Daten hebt den Wert auf 60,0, ein Plus von +8,9 Punkten. Mistral-7B verbessert sich von 62,4 auf 69,1 (+6,7 Punkte).
  • Das Framing auf „Batch-Ebene“ ist der interessante konzeptionelle Ansatz: Das LLM fungiert als impliziter Dichteschätzer über den Batch und nicht als Diskriminator, der darauf trainiert wurde, Klassen zu trennen.
  • Das Fine-Tuning nutzt LoRA ausschließlich auf synthetischen Gauß- und kategorialen Daten – es sind keine echten Anomalie-Annotationen nötig. Das ist ein bedeutender praktischer Vorteil, falls es generalisiert.
  • Das Output-Parsing ist bei Open-Source-Modellen fragil; die Autoren erzwingen Grammatik-Constraints und nutzen Regex-Muster, um Anomalie-Indizes zu extrahieren.

Was Bestand hat – und was nicht

Die Benchmark-Abdeckung ist das größte Problem. Das Paper vergleicht lediglich mit zwei klassischen Baselines: KNN und ECOD. Isolation Forest, LOF, One-Class SVM und jegliche Deep-Learning-Methoden zur Anomalieerkennung fehlen vollständig. ECOD ist zwar eine starke Baseline auf ODDS – aber GPT-4 schlägt sie nicht eindeutig (74,1 vs. 75,5), ebenso wenig wie Mistral-AD (69,1). Gegenüber einem breiteren Set an Baselines ist es nicht offensichtlich, ob GPT-4 seine Position halten würde.

Die Begrenzung auf 150 Zeilen / 10 Spalten ist ebenfalls eine ernsthafte Einschränkung, die im Paper nicht angemessen adressiert wird. Reale Buchungsjournale haben Tausende von Transaktionen und viel mehr Features. Ob der Batch-Ebene-Ansatz skaliert – oder ob er degradiert, weil Anomalien in größeren Batches mit diverseren Mustern schwerer zu unterscheiden sind – wurde nicht getestet.

Die Varianzzahlen sind beunruhigend. GPT-3.5 erreicht beim breastw-Datensatz einen AUROC von 63,1 ± 34,4. Das ist keine Methode, die man einsetzen kann, wenn ein einzelner Durchlauf plausibel alles zwischen 30 und 98 scoren kann. GPT-4 ist stabiler (98,7 ± 0,5 bei breastw), zeigt aber auf anderen Datensätzen ähnliche Varianzen.

Die Annahme der Feature-Unabhängigkeit ist eine weitere Lücke. Das LLM fragt jede Feature-Dimension separat ab und aggregiert die Scores. Es kann nicht über gemeinsame Feature-Muster urteilen – eine Transaktion mit einer ungewöhnlichen Kombination aus Betrag, Gegenpartei und Kontencode könnte in jeder einzelnen Dimension normal aussehen. Mehrdimensionale Anomalien, die wohl die häufigste und wirtschaftlich bedeutendste Art in der Buchhaltung sind, werden mit diesem Ansatz ohne signifikantes Redesign nicht erkannt.

Die Folgeliteratur bestätigt diese Bedenken. AnoLLM (ICLR 2025) von Amazon Science wählt einen anderen Weg: Anstatt nach Anomalie-Indizes zu fragen, wird ein LLM per Fine-Tuning darauf trainiert, die Datenverteilung zu modellieren, und nutzt die negative Log-Likelihood als Anomalie-Score, wodurch das fragile Output-Parsing komplett umgangen wird. CausalTAD (arXiv:2602.07798, Februar 2026) identifiziert eine weitere Schwachstelle, die dieses Paper und AnoLLM teilen: Die Spaltenreihenfolge bei der Serialisierung ist zufällig und ignoriert kausale Beziehungen zwischen Features. Eine Neuordnung der Spalten unter Berücksichtigung der kausalen Struktur verbesserte den durchschnittlichen AUC-ROC von ~0,80 auf 0,83 in sechs Benchmarks.

Warum dies für Finanz-KI wichtig ist

Trotz seiner Einschränkungen ist die Zero-Shot-Richtung für die Anomalieerkennung in Beancount-Ledgern wirklich interessant. Das AuditCopilot-Paper erforderte Fine-Tuning auf gelabelten Anomalie-Beispielen – was in der Praxis schwer zu bekommen ist, da echte Betrugsfälle selten und sensibel sind und deren Labeling Expertenwissen erfordert. Der synthetische Fine-Tuning-Ansatz des Papers (Llama2-AD, Mistral-AD) umgeht dies: Man generiert realistisch aussehende Transaktions-Batches mit künstlichen Anomalien und führt das Fine-Tuning durch, ohne jemals ein echtes Journal anzufassen.

Der Batch-Ebene-Mechanismus entspricht dem natürlichen Denken von Buchhaltern: „Welche Einträge in den Transaktionen dieses Monats sehen im Vergleich zum Rest ungewöhnlich aus?“ Das ist die Intuition hinter der Prüfung von Buchungssätzen in der Revision. Die Herausforderung besteht darin, dass reale Anomalien in Journalen mehrdimensional sind – eine Zahlung, die vom Betrag her normal ist, aber in der Kombination aus Zeitpunkt, Gegenpartei und Kontencode ungewöhnlich. Eine unabhängige Abfrage jedes Features, wie in diesem Paper praktiziert, wird diese nicht erfassen.

Was ich gerne sehen würde, ist eine Version dieses Ansatzes, bei der die gesamte Zeile eingebettet und ganzheitlich bewertet wird – näher an dem, was AnoLLM mit der Verteilungsmodellierung macht –, angewandt auf eine realistische Stichprobe von Beancount-Transaktionsdaten. Die Idee des synthetischen Fine-Tunings verdient eine ernsthafte Untersuchung; das Generieren synthetischer Beancount-Ledger-Batches mit injizierten Anomalien (falsche Konten, doppelte Einträge, unplausible Beträge) ist unkompliziert, und das Fine-Tuning eines 7B-Modells darauf könnte einen nützlichen Zero-Shot-Prüfer hervorbringen, ohne dass jemals echte gelabelte Daten benötigt werden.

Was man als Nächstes lesen sollte

  • AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; die direkteste Erweiterung dieser Arbeit, die wahrscheinlichkeitsbasiertes Scoring anstelle von Prompt-basierter Index-Vorhersage nutzt.
  • CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; adressiert die Lücke in der Spaltenreihenfolge, indem die Serialisierung an der kausalen Struktur ausgerichtet wird.
  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; ein breiterer Benchmark, der NLP-Anomalieerkennungsaufgaben abdeckt und hilft zu verstehen, wo LLMs bereits zuverlässig bzw. unzuverlässig als Anomaliedetektoren sind.