LLM-Anomalieerkennung Survey (NAACL 2025): Starke Taxonomie, fehlende Abdeckung tabellarischer Daten
Die vorangegangenen drei Beiträge in diesem Thread behandelten AnoLLM, CausalTAD und AD-LLM – alle speziell auf die tabellarische Anomalieerkennung ausgerichtet. Dieser Survey von Ruiyao Xu und Kaize Ding, akzeptiert für die NAACL 2025 Findings, sollte diese Fäden eigentlich zu einer einheitlichen Landkarte verknüpfen. Ich hatte eine Taxonomie erwartet, die den Entwurfsraum klärt; was ich erhielt, ist primär ein Überblick über die Anomalieerkennung in Bildern und Videos mit einem dünnen Anstrich von Allgemeingültigkeit.
Das Paper
Der Survey von Xu und Ding (arXiv:2409.01980) schlägt vor, die LLM-basierte Anomalie- und Out-of-Distribution (OOD)-Erkennung in zwei übergeordnete Klassen zu unterteilen: LLMs for Detection, bei denen das Modell Anomalien direkt identifiziert, und LLMs for Generation, bei denen das Modell Trainingsdaten erweitert oder natürlichsprachliche Erklärungen erstellt, die einem nachgelagerten Detektor dienen. Jede Klasse wird weiter unterteilt. Die Erkennung spaltet sich in Prompting-basierte Methoden (eingefrorene oder feinabgestimmte LLMs, die mit natürlichsprachlichen Prompts abgefragt werden) und Kontrastierungs-basierte Methoden (Modelle der CLIP-Familie, die die Anomalität durch den Vergleich von Bildausschnitten mit Textbeschreibungen bewerten). Die Generierung unterteilt sich in Augmentierungs-zentrierte Methoden (Erzeugung von Pseudo-OOD-Labels oder synthetischen Minderheiten-Stichproben) und Erklärungs-zentrierte Methoden (Erstellung natürlichsprachlicher Begründungen für markierte Ereignisse).
Die zugehörige GitHub-Leseliste umfasst etwa 39 Paper: 24 zur Erkennung, 10 zur Augmentierung und 5 zur Erklärung.
Kernaussagen
- Kontrastierungs-basierte Methoden dominieren die Bild-Anomalieerkennung. WinCLIP erreicht 91,8 % und 85,1 % AUROC bei der Zero-Shot-Anomalieklassifizierung und -segmentierung auf MVTec-AD ohne datensatzspezifisches Tuning, was mit überwachten Methoden konkurrenzfähig ist.
- Eingefrorene LLMs stoßen bei Nicht-Text-Daten auf eine Modalitätslücke. Der Survey stellt explizit fest, dass „das direkte Prompting eingefrorener LLMs für Anomalie- oder OOD-Ergebnisse über verschiedene Datentypen hinweg oft zu suboptimaler Leistung führt, da eine inhärente Modalitätslücke zwischen Text und anderen Datenmodalitäten besteht.“
- LoRA und Adapter-Tuning schließen diese Lücke weitgehend. Methoden wie AnomalyGPT und AnomalyCLIP nutzen parametereffiziente Techniken zur Feinabstimmung und übertreffen ihre eingefrorenen Gegenstücke deutlich.
- Generierung als Augmentierung wird zu wenig genutzt. Von BLIP-2 generierte Pseudo-OOD-Labels auf Caption-Ebene übertreffen Alternativen auf Wort- und Beschreibungsebene bei der OOD-Erkennung, was darauf hindeutet, dass eine reichhaltigere Text-Supervision selbst für visuelle Aufgaben wichtig ist.
- Erklärungs-zentrierte Generierung ist die neueste Unterkategorie. Systeme wie Holmes-VAD und VAD-LLaMA gehen über binäre Flags hinaus und generieren natürlichsprachliche Begründungen für anomale Ereignisse, primär in Überwachungsvideos.
- Tabellarische Daten fehlen fast vollständig. Der Survey zitiert eine Methode – „Tabular“ von Li et al. (2024) –, die Tabellenzeilen in Text-Prompts umwandelt und mit LoRA feinabstimmt, liefert jedoch keine Vergleichswerte.
Was überzeugt – und was nicht
Die zwei-klassen-basierte Taxonomie ist wirklich sauber, und ich werde sie wahrscheinlich nutzen, um meine eigenen Gedanken zu ordnen. Die Unterscheidung zwischen Erkennung und Generierung erfasst eine reale architektonische Gabelung: Entweder man lässt das LLM direkt klassifizieren oder man nutzt es, um ein besseres Trainingssignal für einen traditionellen Detektor aufzubauen.
Was ich nicht akzeptieren kann, ist die Rahmung des Papers als allgemeiner Survey zur Anomalieerkennung. Die Abdeckung konzentriert sich überwiegend auf industrielle Defektbilder (MVTec-AD, VisA) und Überwachungsvideos (UCF-Crime, XD-Violence). Von den etwa 39 katalogisierten Papern befassen sich fast keine mit tabellarischen oder Finanzdaten. Zeitreihen erhalten einige Zitate. Tabellarische Daten werden in einem Satz abgehandelt. Dies ist keine Landkarte für Bean Labs – es ist eine Landkarte für Computer-Vision-Forscher, die CLIP für die Defekterkennung nutzen möchten.
Die Autoren räumen ein, dass „Platzmangel detaillierte metrische Zusammenfassungen verhindert“, was eine höfliche Umschreibung dafür ist, dass es keine Vergleichstabellen gibt. Für ein Survey-Paper ist das Fehlen einer quantitativen Synthese eine erhebliche Lücke. Leser können dieses Paper nicht nutzen, um zu entscheiden, welches Paradigma für ihren Anwendungsfall besser geeignet ist, ohne jedes zitierte Paper einzeln nachzuschlagen.
Die Halluzinations-Problematik wird als offene Frage aufgeführt, aber die Behandlung ist oberflächlich – das Risiko wird benannt, ohne zu analysieren, welche Erkennungsparadigmen mehr oder weniger anfällig sind oder wie eine erklärungszentrierte Generierung Halluzinationen durch menschliche Überprüfung erkennbarer machen könnte.
Warum dies für Finanz-KI wichtig ist
Zwei Unterkategorien sind trotz der bildlastigen Abdeckung relevant. Erstens ist die Unterkategorie der erklärungs-zentrierten Generierung genau das, was Beancount-Audit-Agenten benötigen: nicht nur ein Hinweis, dass ein Journaleintrag anomal ist, sondern ein natürlichsprachlicher Satz, der erklärt, warum. Finanzrevisoren können nicht auf Basis eines binären Outputs agieren. Zweitens ist das fast vollständige Schweigen des Surveys zur tabellarischen Anomalieerkennung an sich informativ – es bestätigt, dass der Strang um AnoLLM, CausalTAD und AD-LLM, den ich verfolgt habe, ein Pioniergebiet und kein ausgetretener Pfad ist. Der Entwurf von LLM-basierten Audit-Tools für Beancount-Ledger erfordert die Synthese von Erkenntnissen aus der Vision-Anomalieerkennung, die noch nicht auf tabellarische Umgebungen übertragen wurden.
Der Kompromiss zwischen Prompting und Tuning ist die am besten umsetzbare Erkenntnis: Zero-Shot-Prompting funktioniert als erste Annäherung, leidet aber unter der Modalitätslücke; LoRA-basierte Feinabstimmung auf repräsentativen, markierten Beispielen schließt diese Lücke. Für einen Beancount-Einsatz mit markierten Anomalie-Beispielen aus historischen Ledgern erscheint der Weg der Feinabstimmung zuverlässiger als reines Prompting.
Nächste Lektüreempfehlungen
- „Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs“ (arXiv:2406.03614) – nutzt LLM-Sentence-Transformer-Embeddings für echte Hauptbuch-Buchungssätze; eine direkte Brücke vom Rahmen dieses Surveys zum tabellarischen Beancount-Anwendungsfall.
- „Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework“ (arXiv:2403.19735) – Multi-Agenten-Pipeline für die Anomalieerkennung in Marktdaten; das Multi-Agenten-Koordinationsmuster könnte auf Ledger-Audits übertragbar sein.
- AnomalyGPT (arXiv:2308.15366) – feinabgestimmtes LVLM für die industrielle Anomalieerkennung mit Lokalisierung auf Pixelebene; die Lektüre klärt, was „LLM-Tuning für die Erkennung“ architektonisch eigentlich bedeutet, was der Survey zwar beschreibt, aber nicht erklärt.
