Doorgaan naar hoofdinhoud

CausalTAD: Causale Kolomvolgorde voor LLM Tabulaire Anomaliedetectie

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Het vorige logboek behandelde AnoLLM, dat een klein LLM fine-tunt om tabulaire anomalieën te scoren via negative log-likelihood. CausalTAD (arXiv:2602.07798) stelt een scherpe vervolgvraag: maakt de volgorde waarin je kolommen aan dat LLM voert uit? Het antwoord is ja — en het injecteren van causale structuur in de volgorde zorgt voor een consistente, reproduceerbare verbetering.

Het paper

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

Wang et al. stellen CausalTAD voor, een methode die bovenop LLM-anomaliedetectoren in AnoLLM-stijl werkt en één gerichte wijziging aanbrengt: in plaats van tabulaire rijen te serialiseren in een willekeurige of willekeurige kolomvolgorde, ontdekt het causale afhankelijkheden tussen kolommen en herordent het deze om die afhankelijkheden te respecteren voordat het LLM de rij leest.

Het paper heeft twee bewegende delen. Ten eerste een causaal-gestuurde kolomordening-module. De auteurs passen het COAT factor-extractie-framework aan: een LLM leest kolom-metadata en samples om semantische factoren op hoog niveau te extraheren (voor creditcardtransacties zou een factor zoals "Compensatie" de kolommen voor bedrag en verkoper kunnen omvatten). Uit deze factoren bouwen drie causale ontdekkingsalgoritmen — PC, LiNGAM en FCI — elk een gericht causaal diagram over de factoren. Het probleem van kolomherordening wordt dan een Lineair Ordeningsprobleem: vind de permutatie π die de som van de gewichten van de gerichte randen maximaliseert, zodat oorzaakkolommen vóór gevolgkolommen verschijnen in de geserialiseerde tekst. Omdat de LP veel bijna-optimale oplossingen heeft, samplen ze K ≈ 10 ordeningen binnen 90% van het optimum en middelen ze daarover.

Ten tweede een causaal-bewuste herwegingsmodule. Niet alle kolommen zijn even relevant. Een kolom die veel factoren beïnvloedt, krijgt een hoger gewicht αj = |M⁻¹(cj)|, het aantal factoren waaraan deze bijdraagt. De uiteindelijke anomaliescore is het gewogen gemiddelde van de negative log-likelihoods per kolom over de K ordeningen heen.

Belangrijkste ideeën

  • Kolomvolgorde is een niet-triviale inductieve bias voor autoregressieve LLM's: door een oorzaakkolom vóór de gevolgkolom te plaatsen, kan het model conditioneren op de juiste context bij het toekennen van waarschijnlijkheid aan het gevolg.
  • Causale ontdekking op factorniveau (in plaats van op het niveau van de ruwe kolommen) stelt de methode in staat om tabellen met gemengde typen te verwerken, waar directe causale ontdekking tussen heterogene kolommen ruisgevoelig is.
  • Op 6 benchmark-datasets met gemengde typen bereikt CausalTAD met SmolLM-135M een gemiddelde AUC-ROC van 0,834 tegenover 0,803 voor AnoLLM — een absolute verbetering van 3,1 punten met hetzelfde backbone-model.
  • Specifiek op de Fake Job Posts-dataset scoort CausalTAD 0,873 tegenover 0,800 voor AnoLLM — een relatieve winst van 9,1%, wat groot genoeg is om van belang te zijn in een echt triagesysteem.
  • Over 30 numerieke ODDS-benchmark-datasets behaalt CausalTAD de beste gemiddelde AUC-ROC, waarbij het consequent beter presteert dan klassieke baselines (Isolation Forest, ECOD, KNN) en deep learning-methoden (DeepSVDD, SLAD).
  • Alle drie de causale ontdekkingsalgoritmen verslaan willekeurige ordening in de ablatie; LiNGAM presteert iets beter dan PC en FCI op de gemengde datasets.

Wat standhoudt — en wat niet

De kernbewering — dat causale kolomvolgorde helpt — wordt goed onderbouwd. De ablatie is helder: het vervangen van willekeurige ordening door een van de drie causale ontdekkingsmethoden verbetert de resultaten op de Fake Job Posts-benchmark (van 0,832 naar 0,870–0,873), en de herweging op basis van het aantal factoren helpt verder in elke configuratie. Dat is een geloofwaardig verhaal.

Wat ik minder overtuigend vind, is de bootstrapping-aanname. Het causale diagram wordt geconstrueerd door een LLM te gebruiken om semantische factoren te extraheren uit precies die gegevens die het systeem moet analyseren. Als het LLM het domein verkeerd begrijpt — bijvoorbeeld bij een op maat gemaakt boekhoudsysteem met niet-standaard kolomnamen — zal de factorextractie onjuist zijn, en een slecht causaal diagram is aantoonbaar slechter dan een willekeurige volgorde omdat het een systematische bias introduceert. De auteurs erkennen dit risico ("leunt op de capaciteit van LLM's voor factorextractie"), maar toetsen de nauwkeurigheid van de factorextractie niet onafhankelijk.

Er is ook een probleem met rekenkundige overhead dat serieuzer is dan het paper suggereert. Het uitvoeren van drie causale ontdekkingsalgoritmen, het oplossen van een LP, het samplen van K ordeningen en vervolgens het uitvoeren van inferentie op K geserialiseerde versies van elk testpunt vermenigvuldigt de inferentiekosten met K. Voor een grootboek met miljoenen boekingen is dit van belang. Het paper merkt op dat "toekomstig werk zich kan richten op het verbeteren van de efficiëntie", maar biedt geen concrete profilering.

Tot slot zijn de 30 numerieke ODDS-datasets uitgebreid bestudeerd en aantoonbaar verzadigd voor dit soort methoden. Het betekenisvollere signaal zit in de 6 datasets met gemengde typen — die realistisch zijn voor de financiële sector — en de verbeteringen daar zijn, hoewel reëel, enigszins bescheiden in absolute termen.

Waarom dit belangrijk is voor finance AI

Beancount-transacties hebben een oprechte causale structuur: het boekingsbedrag stuurt causaal de rekeningselectie aan, de rekening stuurt de tegenpartijverwachting aan, en de memo-tekst is causaal stroomafwaarts van alle drie. Willekeurige kolomserialisatie negeert dit, wat betekent dat een model in AnoLLM-stijl "memo: boodschappen | rekening: Kosten:Voeding | bedrag: $4200" net zo makkelijk ziet als de correct geordende versie.

CausalTAD biedt een principiële manier om "bedrag en rekening komen eerst" te coderen zonder dit als een regel hard te coderen. Voor de audit-agents van Bean Labs suggereert dit een praktische architecturale keuze: voordat je een batch transacties scoort op anomalieën, voer je één pass uit om het causale diagram over het kolomschema van het grootboek te ontdekken, en gebruik je die vaste volgorde voor alle daaropvolgende inferentie. De overhead wordt eenmalig op schema-niveau betaald, niet per transactie.

Het voorbeeld van creditcardfraudedetectie in het paper heeft in wezen dezelfde taakstructuur als anomaliedetectie in een grootboek: heterogene kenmerken, zeldzame labels en een causale volgorde die domeinexperts intuïtief kennen, maar die LLM's anders zouden negeren.

Wat nu te lezen

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — de systematische benchmark over drie LLM-anomaliedetectie-paradigma's waar CausalTAD in past; het lezen hiervan geeft het volledige landschap in plaats van de enkele vergelijking tussen AnoLLM en CausalTAD.
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — het factor-extractie-framework dat CausalTAD aanpast; begrijpen hoe dit werkt verduidelijkt waar de kwaliteit van het causale diagram kan falen.
  • Causal discovery in heterogeneous data: a survey — om de relatieve voordelen van PC vs LiNGAM vs FCI op tabulaire data met gemengde typen te begrijpen, aangezien het paper alle drie als uitwisselbaar behandelt, terwijl ze verschillende onafhankelijkheidsaannames doen.