AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten
Das Paper zur Zero-Shot-LLM-Anomalieerkennung, das ich vor zwei Tagen gelesen habe (arXiv:2406.16308), zeigte, dass GPT-4 tabellarische Ausreißer ohne jegliches Training identifizieren kann und dabei mit klassischen Baselines wie ECOD auf dem ODDS-Benchmark gleichzieht. Es hatte jedoch eine offensichtliche Schwäche: Das Modell zu bitten, eine Liste anomaler Zeilenindizes auszugeben, ist fehleranfällig – Open-Source-Modelle halluzinieren regelmäßig Indizes, überschreiten Grenzen oder markieren jede Zeile als verdächtig. AnoLLM, veröffentlicht auf der ICLR 2025 von Che-Ping Tsai, Ganyu Teng, Phillip Wallis und Wei Ding von Amazon, behebt diese Instabilität und dringt gleichzeitig in Bereiche mit gemischten Datentypen vor, in denen rein numerische Baselines an ihre Grenzen stoßen.
Das Paper
AnoLLM definiert die tabellarische Anomalieerkennung als Dichteschätzung eines Sprachmodells neu, anstatt als prompte-basierte Klassifizierung. Anstatt das LLM zu fragen, welche Zeilen verdächtig aussehen, führen die Autoren ein Feintuning eines vorab trainierten Sprachmodells auf serialisierten In-Distribution-Trainingszeilen (normalen Zeilen) durch. Anschließend wird jede Testzeile anhand ihrer negativen Log-Likelihood (NLL) unter dieser gelernten Verteilung bewertet. Eine Zeile, die der Trainingsverteilung überhaupt nicht ähnelt, erhält einen hohen NLL-Wert – das ist der Anomalie-Score. Kein Indexformat, kein Parsen der Ausgabe, keine fehleranfällige Regex-Extraktion.
Die Serialisierung wandelt jede Tabellenzeile in einen natürlichsprachlichen String mit Merkmalsnamen und -werten um. Bei textbasierten Spalten wird die NLL pro Spalte normalisiert, um einen Längen-Bias zu vermeiden, da längere Beschreibungen sonst mechanisch höhere Wahrscheinlichkeitskosten akkumulieren würden. Bei numerischen und kategorialen Spalten wird die rohe NLL auf Token-Ebene über das Feld summiert. Das Modell wird in einem semi-überwachten Setting feinabgestimmt – nur als normal gekennzeichnete Zeilen fließen in das Training ein – für bis zu 2.000 Schritte unter Verwendung von verteiltem GPU-Training.
Kernideen
- Das Problem des Ausgabeformats: Frühere Ansätze zur Index-Vorhersage erfordern, dass LLMs zuverlässig anomale Zeilenindizes aus einem Batch ausgeben. Modelle der Llama-Familie paaren häufig falsche Indizes mit Werten, generieren Indizes außerhalb der Batch-Größe oder listen einfach alles als anomal auf. NLL umgeht dies vollständig.
- AnoLLM erzielt die beste Leistung auf sechs Benchmark-Datensätzen mit gemischten Merkmalsstypen, darunter Datensätze zur Erkennung von Kfz-Versicherungsbetrug und E-Commerce-Betrug von Kaggle.
- Auf den 30 überwiegend numerischen ODDS-Benchmark-Datensätzen schneidet AnoLLM gleichwertig mit den besten klassischen Baselines ab – nicht deutlich besser, aber wettbewerbsfähig.
- Die NLL-Normalisierung pro Spalte für Textmerkmale ist eine kleine, aber entscheidende technische Entscheidung: Ohne sie würde eine Transaktionsbeschreibung mit dreißig Token den Score gegenüber einem zweistelligen Betrag dominieren, was ein falscher induktiver Bias wäre.
- Kontext der Trainings-Baseline: Der Zero-Shot-GPT-4-Ansatz (arXiv:2406.16308) erreicht eine durchschnittliche AUROC von 74,1 auf ODDS, vergleichbar mit ECOD (75,5) und KNN (70,7). Der Vorteil von AnoLLM zeigt sich spezifisch bei Datensätzen, in denen Text und kategoriale Merkmale aussagekräftige Anomaliesignale enthalten.
Was Bestand hat – und was nicht
Die Kernidee der NLL ist fundiert. Die Verwendung eines feinabgestimmten Sprachmodells als Dichteschätzer über serialisierte Zeilen ist prinzipientreu und verarbeitet die gemeinsame Verteilung aller Spalten gleichzeitig – etwas, das klassische unüberwachte Detektoren, die Spalte für Spalte angewendet werden, nicht sauber leisten können. Die Lösung für die Index-Vorhersage ist wirklich nützlich und der Vergleich mit der Zero-Shot-Baseline ist fair.
Was mich stört, ist die Kosten-Nutzen-Lücke, die im Paper unterrepräsentiert ist. AnoLLM erfordert das Feintuning und Bereitstellen eines LLMs für die Inferenz – eine erhebliche Infrastrukturinvestition im Vergleich zum Training von ECOD oder IsolationForest auf einer CPU in Sekundenschnelle. Auf dem ODDS-Benchmark (rein numerisch) ist AnoLLM nur „gleichwertig“, nicht besser. Das Argument für AnoLLM liegt also vollständig im Bereich der gemischten Datentypen, wobei die sechs evaluierten Datensätze zur Betrugserkennung von Kaggle stammen. Sechs Datensätze sind eine dünne empirische Grundlage für eine starke Empfehlung, zumal Benchmark-Datensätze von Kaggle dazu neigen, saubere Schemata, feste Spaltensemantiken und bekannte Grundwahrheiten zu haben – alles Dinge, die Produktions-Journaldaten oft fehlen.
Das Problem der Spaltenreihenfolge bleibt ebenfalls offen. CausalTAD (arXiv:2602.07798) identifizierte diese Lücke sofort: AnoLLM serialisiert Spalten in willkürlicher Reihenfolge und ignoriert die kausalen Beziehungen zwischen den Feldern. Für strukturierte Daten mit bekannten Kausalketten – der Kontotyp beeinflusst gültige Transaktionsbereiche, die wiederum den erwarteten Vertragspartner beeinflussen – ist dies eine echte Einschränkung. CausalTAD formuliert die Neuordnung als lineares Ordnungsproblem und berichtet von konsistenten Verbesserungen gegenüber AnoLLM über mehr als 30 Datensätze hinweg. Dass diese Lücke existierte und so schnell gefunden wurde, deutet darauf hin, dass das Serialisierungsdesign von AnoLLM nicht vollständig durchdacht war.
Es gibt auch eine Skalierungsfrage, die das Paper nicht adressiert: Ab welchem Volumen an normalen Trainingsbeispielen lohnt sich das Feintuning eines LLMs gegenüber beispielsweise einem tabellarischen Deep-Learning-Modell, das direkt auf den numerischen Merkmalen trainiert wurde? Für persönliche Beancount-Journale mit ein paar tausend Einträgen könnten die Rechenkosten jeden Genauigkeitsgewinn leicht in den Schatten stellen.
Warum dies für Finance AI wichtig ist
Beancount-Journaleinträge sind genau die Art von Daten mit gemischten Typen, auf die AnoLLM abzielt: Beträge (numerisch), Kontonamen (strukturiert/Text), Zahlungsempfänger/Beschreibung (Freitext), Tags (kategorial), Daten (strukturiert). Eine einzelne Zeile wie 2024-03-15 * "AWS" "Cloud-Rechnung" Assets:Checking -2400.00 EUR kodiert Informationen über all diese Typen gleichzeitig. Klassische Anomalie-Detektoren tun sich hier schwer, weil sie für jeden Spaltentyp eine separate Handhabung benötigen und die Korrelationen zwischen ihnen verlieren – das gemeinsame Muster, dass "AWS"-Rechnungen in einem bestimmten Bereich liegen und ein spezifisches Konto betreffen sollten.
Der NLL-Ansatz von AnoLLM würde im Prinzip diese gemeinsamen Muster aus historischen Einträgen lernen und Abweichungen über jede Spaltenkombination hinweg markieren. Das ist potenziell nützlicher als regelbasierte Prüfungen oder statistische Tests einzelner Spalten.
Dennoch ist die Einschränkung der doppelten Buchführung ein strukturelles Wissen, das AnoLLM nicht allein aus serialisierten Zeilen lernen kann – Soll muss gleich Haben sein, Kontohierarchien müssen respektiert werden. Diese Domäneninvarianten sind harte Bedingungen, keine statistischen Regelmäßigkeiten, und kein noch so großes LLM-Feintuning auf historischen Zeilen wird sie zuverlässig erzwingen, wenn die Trainingsdaten Ausnahmen oder Rundungsartefakte enthalten. Die richtige Architektur kombiniert wahrscheinlich das NLL-Scoring von AnoLLM für semantische Anomalien mit expliziten Regelprüfungen für strukturelle Anomalien.
Was man als Nächstes lesen sollte
- CausalTAD (arXiv:2602.07798) – verbessert AnoLLM direkt durch das Einfügen einer kausalen Spaltenreihenfolge; das unmittelbarste Follow-up zur Evaluierung.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) – bietet die systematische Multi-Paradigma-Evaluierung, die in den Papern zu Einzelmethoden fehlt.
- "Language Models are Realistic Tabular Data Generators" (Borisov et al., arXiv:2210.06280, ICLR 2023) – das BE-GREAT-Modell, das AnoLLM als Baseline verwendet; das Verständnis dieses Modells verdeutlicht, was AnoLLM über die Index-Vorhersage hinaus tatsächlich verbessert.
