Zum Hauptinhalt springen

CausalTAD: Kausale Spaltenordnung für die Tabellen-Anomalieerkennung mit LLMs

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Der vorherige Eintrag behandelte AnoLLM, das ein kleines LLM feinabstimmt, um Tabellen-Anomalien mittels negativer Log-Likelihood zu bewerten. CausalTAD (arXiv:2602.07798) stellt eine präzise Anschlussfrage: Spielt die Reihenfolge, in der man die Spalten an dieses LLM übergibt, eine Rolle? Die Antwort lautet ja – und das Einfließen einer kausalen Struktur in die Sortierung führt zu einer konsistenten, reproduzierbaren Verbesserung.

Das Paper

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

Wang et al. schlagen CausalTAD vor, eine Methode, die auf LLM-Anomaliedetektoren im Stil von AnoLLM aufsetzt und eine gezielte Änderung vornimmt: Anstatt Tabellenzeilen in zufälliger oder willkürlicher Spaltenreihenfolge zu serialisieren, erkennt sie kausale Abhängigkeiten zwischen den Spalten und ordnet diese so um, dass sie diesen Abhängigkeiten entsprechen, bevor das LLM die Zeile liest.

Das Paper besteht aus zwei Komponenten. Erstens, ein kausal gesteuertes Modul zur Spaltensortierung. Die Autoren adaptieren das COAT-Faktor-Extraktions-Framework: Ein LLM liest Spalten-Metadaten und Stichproben, um semantische Faktoren auf hoher Ebene zu extrahieren (bei Kreditkartentransaktionen könnte ein Faktor wie „Vergütung“ sowohl den Betrag als auch die Händlerspalten umfassen). Aus diesen Faktoren erstellen drei Algorithmen zur kausalen Entdeckung — PC, LiNGAM und FCI — jeweils einen gerichteten kausalen Graphen über die Faktoren. Das Problem der Spalten-Neusortierung wird dann zu einem linearen Ordnungsproblem (Linear Ordering Problem): Finde die Permutation π, die die Summe der Gewichte der gerichteten Kanten maximiert, sodass Ursachenspalten vor den Wirkungsspalten im serialisierten Text erscheinen. Da das LP viele nahezu optimale Lösungen hat, ziehen sie Stichproben von K ≈ 10 Sortierungen innerhalb von 90 % des Optimums und bilden den Durchschnitt über diese.

Zweitens, ein kausalitätsbewusstes Neugewichtungsmodul. Nicht alle Spalten sind gleichermaßen relevant. Eine Spalte, die viele Faktoren beeinflusst, erhält ein höheres Gewicht αj = |M⁻¹(cj)|, was der Anzahl der Faktoren entspricht, zu denen sie beiträgt. Der endgültige Anomalie-Score ist der gewichtete Durchschnitt der negativen Log-Likelihoods pro Spalte über die K Sortierungen hinweg.

Kernideen

  • Die Spaltensortierung ist ein nicht-trivialer induktiver Bias für autoregressive LLMs: Das Platzieren einer Ursachenspalte vor ihrer Wirkungsspalte ermöglicht es dem Modell, auf den korrekten Kontext zu konditionieren, wenn es der Wirkung eine Wahrscheinlichkeit zuweist.
  • Kausale Entdeckung auf Faktorebene (statt auf der Ebene roher Spalten) ermöglicht es der Methode, Tabellen mit gemischten Datentypen zu verarbeiten, bei denen eine direkte kausale Entdeckung zwischen heterogenen Spalten fehleranfällig ist.
  • In 6 Benchmark-Datensätzen mit gemischten Typen erreicht CausalTAD mit SmolLM-135M einen durchschnittlichen AUC-ROC von 0,834 im Vergleich zu 0,803 bei AnoLLM — eine absolute Verbesserung von 3,1 Punkten mit demselben Basismodell.
  • Speziell beim Datensatz „Fake Job Posts“ erreicht CausalTAD 0,873 gegenüber 0,800 bei AnoLLM — ein relativer Gewinn von 9,1 %, was groß genug ist, um in einem realen Triage-System von Bedeutung zu sein.
  • Über 30 numerische ODDS-Benchmark-Datensätze hinweg erzielt CausalTAD den besten durchschnittlichen AUC-ROC und übertrifft konsistent klassische Baselines (Isolation Forest, ECOD, KNN) sowie Deep-Learning-Methoden (DeepSVDD, SLAD).
  • Alle drei Algorithmen zur kausalen Entdeckung schlagen die zufällige Sortierung in der Ablationsstudie; LiNGAM schneidet bei den gemischten Datentypen geringfügig besser ab als PC und FCI.

Was Bestand hat – und was nicht

Die Kernbehauptung — dass eine kausale Spaltenreihenfolge hilft — ist gut belegt. Die Ablationsstudie ist sauber: Der Austausch der zufälligen Sortierung gegen eine der drei kausalen Entdeckungsmethoden verbessert die Ergebnisse beim Benchmark „Fake Job Posts“ (von 0,832 auf 0,870–0,873), und die Neugewichtung nach Faktoranzahl hilft in jeder Konfiguration weiter. Das ist eine glaubwürdige Argumentation.

Weniger überzeugend finde ich die Bootstrapping-Annahme. Der kausale Graph wird konstruiert, indem ein LLM verwendet wird, um semantische Faktoren aus genau den Daten zu extrahieren, die das System analysieren soll. Wenn das LLM die Domäne falsch versteht — etwa bei einem maßgeschneiderten Buchhaltungssystem mit unüblichen Spaltennamen — ist die Faktorextraktion fehlerhaft. Ein schlechter kausaler Graph ist womöglich schlimmer als eine zufällige Sortierung, da er einen systematischen Bias einführt. Die Autoren räumen dieses Risiko ein („hängt von der Fähigkeit der LLMs zur Faktorextraktion ab“), testen die Genauigkeit der Faktorextraktion jedoch nicht unabhängig.

Es gibt auch ein Problem mit dem Rechenaufwand, das schwerwiegender ist, als das Paper suggeriert. Das Ausführen von drei Algorithmen zur kausalen Entdeckung, das Lösen eines LP, das Sampling von K Sortierungen und die anschließende Inferenz bei K serialisierten Versionen jedes Testpunkts vervielfacht die Inferenzkosten um den Faktor K. Für ein Hauptbuch mit Millionen von Einträgen ist dies relevant. Das Paper merkt an, dass „zukünftige Arbeiten sich auf die Verbesserung der Effizienz konzentrieren könnten“, bietet aber kein konkretes Profiling an.

Schließlich sind die 30 numerischen ODDS-Datensätze gut untersucht und für Methoden wie diese wohl ausgereizt. Das aussagekräftigere Signal liegt in den 6 Datensätzen mit gemischten Typen — die für das Finanzwesen realistisch sind — und die dortigen Verbesserungen sind zwar real, aber in absoluten Zahlen eher moderat.

Warum das für Finanz-KI wichtig ist

Beancount-Transaktionen haben eine echte kausale Struktur: Der Buchungsbetrag beeinflusst kausal die Kontenauswahl, das Konto bestimmt die Erwartung an die Gegenpartei, und der Buchungstext steht kausal am Ende dieser Kette. Eine zufällige Spaltenserialisierung ignoriert dies, was bedeutet, dass ein Modell im Stil von AnoLLM „memo: Lebensmittel | account: Ausgaben:Essen | amount: 4200 €“ genauso willkürlich sieht wie die korrekt geordnete Version.

CausalTAD bietet eine strukturierte Möglichkeit, „Betrag und Konto kommen zuerst“ zu kodieren, ohne dies als feste Regel festzuschreiben. Für Bean Labs Audit-Agenten legt dies eine praktische architektonische Entscheidung nahe: Bevor ein Stapel von Transaktionen auf Anomalien geprüft wird, führt man einen Durchlauf durch, um den kausalen Graphen über das Spaltenschema des Hauptbuchs zu ermitteln, und verwendet diese feste Reihenfolge für alle folgenden Inferenzen. Der Aufwand fällt nur einmal auf Schema-Ebene an, nicht pro Transaktion.

Das Beispiel der Kreditkarten-Betrugserkennung im Paper hat im Wesentlichen dieselbe Aufgabenstruktur wie die Anomalieerkennung im Hauptbuch: heterogene Merkmale, seltene Labels und eine kausale Ordnung, die Domänenexperten intuitiv kennen, die LLMs aber ansonsten ignorieren würden.

Was man als Nächstes lesen sollte

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — der systematische Benchmark über drei LLM-Anomalieerkennungs-Paradigmen hinweg, in den sich CausalTAD einfügt; die Lektüre bietet einen Gesamtüberblick statt nur des Vergleichs zwischen AnoLLM und CausalTAD.
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — das Framework zur Faktorextraktion, das CausalTAD adaptiert; zu verstehen, wie es funktioniert, verdeutlicht, an welchen Stellen die Qualität des kausalen Graphen scheitern kann.
  • Causal discovery in heterogeneous data: a survey — zum Verständnis der relativen Vorzüge von PC gegenüber LiNGAM und FCI bei Tabellendaten mit gemischten Typen, da das Paper alle drei als austauschbar behandelt, sie aber unterschiedliche Unabhängigkeitsannahmen treffen.