CausalTAD : Ordonnancement causal des colonnes pour la détection d'anomalies tabulaires par LLM
Le journal précédent traitait d'AnoLLM, qui ajuste finement un petit LLM pour évaluer les anomalies tabulaires via la log-vraisemblance négative. CausalTAD (arXiv : 2602.07798) pose une question de suivi pertinente : l'ordre dans lequel vous fournissez les colonnes à ce LLM a-t-il une importance ? La réponse s'avère être oui — et l'injection d'une structure causale dans l'ordonnancement offre une amélioration constante et reproductible.
L'article
Wang et al. proposent CausalTAD, une méthode qui se superpose aux détecteurs d'anomalies LLM de type AnoLLM et apporte une modification ciblée : au lieu de sérialiser les lignes tabulaires dans un ordre de colonnes aléatoire ou arbitraire, elle découvre les dépendances causales entre les colonnes et les réordonne pour respecter ces dépendances avant que le LLM ne lise la ligne.
L'article comporte deux parties mobiles. Premièrement, un module d'ordonnancement des colonnes piloté par la causalité. Les auteurs adaptent le framework d'extraction de facteurs COAT : un LLM lit les métadonnées des colonnes et des échantillons pour extraire des facteurs sémantiques de haut niveau (pour les transactions par carte de crédit, un facteur comme « Compensation » pourrait englober les colonnes montant et marchand). À partir de ces facteurs, trois algorithmes de découverte causale — PC, LiNGAM et FCI — construisent chacun un graphe causal dirigé sur les facteurs. Le problème de réordonnancement des colonnes devient alors un Problème d'Ordonnancement Linéaire (Linear Ordering Problem) : trouver la permutation π qui maximise la somme des poids des arêtes dirigées, de sorte que les colonnes de cause apparaissent avant les colonnes d'effet dans le texte sérialisé. Comme le PL (programmation linéaire) possède de nombreuses solutions quasi optimales, ils échantillonnent K ≈ 10 ordonnancements dans les 90 % de l'optimum et en font la moyenne.
Deuxièmement, un module de repondération sensible à la causalité. Toutes les colonnes ne sont pas également pertinentes. Une colonne qui influence de nombreux facteurs reçoit un poids plus élevé αj = |M⁻¹(cj)|, soit le nombre de facteurs auxquels elle contribue. Le score d'anomalie final est la moyenne pondérée des log-vraisemblances négatives par colonne à travers les K ordonnancements.
Idées clés
- L'ordonnancement des colonnes est un biais inductif non trivial pour les LLM autorégressifs : placer une colonne de cause avant sa colonne d'effet permet au modèle de se conditionner sur le bon contexte lors de l'attribution d'une vraisemblance à l'effet.
- La découverte causale au niveau des facteurs (plutôt qu'au niveau des colonnes brutes) permet à la méthode de gérer des tableaux de types mixtes où la découverte causale directe entre colonnes hétérogènes est parasitée.
- Sur 6 jeux de données de référence de types mixtes, CausalTAD avec SmolLM-135M atteint une AUC-ROC moyenne de 0,834 contre 0,803 pour AnoLLM — une amélioration absolue de 3,1 points avec le même modèle de base.
- Sur le jeu de données Fake Job Posts spécifiquement, CausalTAD obtient 0,873 contre 0,800 pour AnoLLM — un gain relatif de 9,1 %, ce qui est assez important pour compter dans un système de tri réel.
- À travers 30 jeux de données de référence numériques ODDS, CausalTAD atteint la meilleure AUC-ROC moyenne, surpassant systématiquement les lignes de base classiques (Isolation Forest, ECOD, KNN) et les méthodes profondes (DeepSVDD, SLAD).
- Les trois algorithmes de découverte causale battent l'ordonnancement aléatoire dans l'ablation ; LiNGAM l'emporte légèrement sur PC et FCI sur les jeux de données mixtes.
Ce qui tient la route — et ce qui ne la tient pas
L'affirmation centrale — selon laquelle l'ordre causal des colonnes aide — est bien étayée. L'ablation est claire : remplacer l'ordonnancement aléatoire par l'une des trois méthodes de découverte causale améliore les résultats sur le benchmark Fake Job Posts (de 0,832 à 0,870–0,873), et la repondération par le nombre de facteurs aide davantage dans chaque configuration. C'est un argument crédible.
Ce que je trouve moins convaincant, c'est l'hypothèse de l'auto-amorçage (bootstrapping). Le graphe causal est construit en utilisant un LLM pour extraire des facteurs sémantiques des données mêmes que le système est censé analyser. Si le LLM comprend mal le domaine — par exemple, pour un système comptable sur mesure avec des noms de colonnes non standard — l'extraction des facteurs sera erronée, et un mauvais graphe causal est sans doute pire qu'un ordonnancement aléatoire car il introduit un biais systématique. Les auteurs reconnaissent ce risque (« repose sur la capacité des LLM pour l'extraction de facteurs ») mais n'évaluent pas l'exactitude de l'extraction des facteurs de manière indépendante.
Il y a aussi une question de surcharge de calcul qui est plus sérieuse que ce que suggère l'article. L'exécution de trois algorithmes de découverte causale, la résolution d'un PL, l'échantillonnage de K ordonnancements, puis l'exécution de l'inférence sur K versions sérialisées de chaque point de test multiplie le coût d'inférence par K. Pour un grand livre avec des millions d'écritures, cela compte. L'article note que « les travaux futurs pourraient se concentrer sur l'amélioration de l'efficacité » mais ne propose aucun profilage concret.
Enfin, les 30 jeux de données ODDS numériques sont très étudiés et sans doute saturés pour des méthodes comme celle-ci. Le signal le plus significatif se trouve dans les 6 jeux de données de types mixtes — qui sont les plus réalistes pour la finance — et les améliorations y sont, bien que réelles, quelque peu modestes en termes absolus.
Pourquoi cela est important pour l'IA financière
Les transactions Beancount ont une véritable structure causale : le montant de l'imputation détermine causalement la sélection du compte, le compte détermine l'attente vis-à-vis de la contrepartie, et le texte du mémo est causalement en aval des trois. La sérialisation aléatoire des colonnes ignore cela, ce qui signifie qu'un modèle de type AnoLLM voit « memo : courses | compte : Dépenses:Alimentation | montant : 4200 $ » aussi librement que la version correctement ordonnée.
CausalTAD offre un moyen structuré d'encoder « le montant et le compte viennent en premier » sans l'intégrer en dur comme une règle. Pour les agents d'audit de Bean Labs, cela suggère un choix architectural pratique : avant de noter un lot de transactions pour les anomalies, effectuer une passe pour découvrir le graphe causal sur le schéma des colonnes du grand livre, puis utiliser cet ordonnancement fixe pour toutes les inférences ultérieures. La surcharge est payée une seule fois au niveau du schéma, pas par transaction.
L'exemple de détection de fraude par carte de crédit dans l'article possède essentiellement la même structure de tâche que la détection d'anomalies dans un grand livre : des caractéristiques hétérogènes, des étiquettes rares et un ordre causal que les experts du domaine connaissent intuitivement mais que les LLM ignoreraient autrement.
Lectures recommandées
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — le benchmark systématique à travers trois paradigmes de détection d'anomalies par LLM dans lesquels CausalTAD s'inscrit ; le lire donne une vue d'ensemble plutôt que la seule comparaison AnoLLM vs CausalTAD.
- COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — le framework d'extraction de facteurs que CausalTAD adapte ; comprendre son fonctionnement permet de clarifier les points de défaillance potentiels de la qualité du graphe causal.
- Causal discovery in heterogeneous data: a survey — pour comprendre les mérites relatifs de PC vs LiNGAM vs FCI sur les données tabulaires de types mixtes, puisque l'article traite les trois comme interchangeables alors qu'ils font des hypothèses d'indépendance différentes.
