Détection d'anomalies Zero-Shot avec les LLM : performances de GPT-4 sur les données tabulaires
L'article AuditCopilot que j'ai lu le mois dernier évaluait les LLM sur la détection de fraude dans les écritures comptables en effectuant un réglage fin (fine-tuning) sur des données d'anomalies étiquetées. Je me demandais depuis lors si le prompting zero-shot pouvait faire l'essentiel du travail — sans anomalies étiquetées, ni réglage fin spécifique au domaine. C'est exactement la promesse de « Anomaly Detection of Tabular Data Using LLMs » par Li, Zhao, Qiu, Kloft, Smyth, Rudolph et Mandt (arXiv:2406.16308), un article d'atelier de la mi-2024. Le résultat principal — GPT-4 égalant les méthodes transductives classiques comme ECOD — semblait presque trop beau, j'ai donc lu cela attentivement.
L'article
L'idée centrale est ce que les auteurs appellent la détection d'anomalies « au niveau du lot » (batch-level). Au lieu d'ajuster un modèle sur des données d'entraînement puis de noter les points de test individuellement, vous présentez au LLM un lot de N lignes au moment de l'inférence et lui demandez d'identifier quelles lignes sont anormales par rapport aux autres dans le même lot. Les anomalies sont rares au sein d'un lot, donc un modèle suffisamment performant devrait implicitement reconnaître le motif majoritaire et signaler les valeurs aberrantes (outliers). Pas de réentraînement, pas d'exemples étiquetés — juste les connaissances mondiales pré-entraînées du LLM et son raisonnement en contexte.
Ils évaluent la méthode sur le benchmark ODDS de 32 jeux de données, une collection standard de problèmes de détection d'anomalies tabulaires du monde réel. En raison des limites de la fenêtre de contexte, ils plafonnent chaque lot d'évaluation à 150 lignes et 10 colonnes. Les caractéristiques sont sérialisées une dimension à la fois avec le modèle « Data i is x_i. » et le LLM est invité à nommer les indices anormaux pour chaque dimension séparément ; le score d'anomalie final d'une ligne agrège le nombre de dimensions l'ayant signalée.
Pour les modèles propriétaires, ils testent le zero-shot. Pour les modèles open-source (Llama2-7B, Llama2-70B, Mistral-7B), les performances en zero-shot sont médiocres, ils proposent donc également un réglage fin sur un ensemble de données synthétiques de 5 000 lots générés à partir de mélanges gaussiens et de distributions catégorielles — aucune étiquette d'anomalie réelle n'est requise. Les variantes affinées sont appelées Llama2-AD et Mistral-AD.
Idées clés
- GPT-4 en zero-shot atteint une AUROC moyenne de 74,1 sur les 32 jeux de données ODDS, contre 75,5 pour ECOD (la meilleure référence classique) et 70,7 pour KNN. GPT-3.5 est à la traîne avec 68,3.
- Llama2-7B en zero-shot n'obtient que 51,1 — essentiellement aléatoire — mais le réglage fin sur des données synthétiques le porte à 60,0, soit un gain de +8,9 points. Mistral-7B passe de 62,4 à 69,1 (+6,7 points).
- Le cadrage « au niveau du lot » est une approche conceptuelle intéressante : le LLM agit comme un estimateur de densité implicite sur le lot plutôt que comme un discriminateur entraîné à séparer des classes.
- Le r églage fin utilise LoRA uniquement sur des données gaussiennes et catégorielles synthétiques — aucune annotation d'anomalie réelle n'est nécessaire. C'est un avantage pratique significatif si cela se généralise.
- L'analyse de la sortie (parsing) est fragile pour les modèles open-source ; les auteurs imposent des contraintes grammaticales et utilisent des motifs regex pour extraire les indices d'anomalie.
Ce qui tient la route — et ce qui ne la tient pas
La couverture du benchmark est le problème majeur. L'article ne compare la méthode qu'à deux références classiques : KNN et ECOD. Isolation Forest, LOF, One-Class SVM et toute méthode de détection d'anomalies par deep learning sont totalement absentes. ECOD s'avère être une référence solide sur ODDS — mais GPT-4 ne le bat pas clairement (74,1 contre 75,5), pas plus que Mistral-AD (69,1). Face à un ensemble plus large de références, il n'est pas certain que GPT-4 maintiendrait sa position.
Le plafond de 150 lignes / 10 colonnes est également une contrainte sérieuse que l'article n'aborde pas de manière adéquate. Les registres comptables réels contiennent des milliers de transactions et bien plus de caractéristiques. La question de savoir si l'approche par lot passe à l'échelle — ou si elle se dégrade parce que les anomalies deviennent plus difficiles à distinguer dans des lots plus importants avec des motifs plus diversifiés — n'est pas testée.
Les chiffres de variance sont inquiétants. GPT-3.5 sur le jeu de données breastw obtient une AUROC de 63,1 ± 34,4. Ce n'est pas une méthode que l'on peut déployer quand une seule exécution peut plausiblement donner un score allant de 30 à 98. GPT-4 est plus stable (98,7 ± 0,5 sur breastw) mais montre une variance similaire sur d'autres jeux de données.
L'hypothèse d'indépendance des caractéristiques est une autre lacune. Le LLM interroge chaque dimension de caractéristique séparément et agrège les scores. Il ne peut pas raisonner sur des motifs de caractéristiques joints — une transaction avec une combinaison inhabituelle de montant, de contrepartie et de code de compte pourrait sembler normale sur n'importe quelle dimension individuelle. Les anomalies multidimensionnelles, qui sont sans doute les plus courantes et les plus significatives sur le plan économique en comptabilité, ne seront pas détectées par cette approche sans une refonte importante.
La littérature complémentaire confirme ces inquiétudes. AnoLLM (ICLR 2025) d'Amazon Science adopte une approche différente : au lieu de demander des indices d'anomalie, il affine un LLM pour modéliser la distribution des données et utilise la log-vraisemblance négative comme score d'anomalie, évitant ainsi totalement le régime fragile de l'analyse de sortie. CausalTAD (arXiv:2602.07798, février 2026) identifie une autre lacune partagée par cet article et AnoLLM : l'ordre des colonnes lors de la sérialisation est aléatoire, ignorant les relations causales entre les caractéristiques. Réordonner les colonnes pour respecter la structure causale améliore l'AUC-ROC moyenne de ~0,80 à 0,83 sur six benchmarks.
Pourquoi cela compte pour l'IA financière
Malgré ses limites, l'orientation zero-shot est véritablement intéressante pour la détection d'anomalies dans les registres Beancount. L'article AuditCopilot nécessitait un réglage fin sur des exemples d'anomalies étiquetées — difficiles à obtenir en pratique car les cas de fraude réels sont rares, sensibles, et leur étiquetage nécessite des comptables experts. L'approche de réglage fin synthétique de l'article (Llama2-AD, Mistral-AD) contourne ce problème : vous générez des lots de transactions d'apparence réaliste avec des anomalies artificielles et vous effectuez le réglage fin sans jamais toucher à un registre réel.
Le mécanisme au niveau du lot correspond naturellement à la façon dont les comptables réfléchissent réellement : « dans les transactions de ce mois, quelles écritures semblent inhabituelles par rapport aux autres ? » C'est l'intuition derrière les tests d'écritures comptables en audit. Le défi est que les anomalies réelles des registres sont multidimensionnelles — un paiement normal par son montant mais inhabituel par son timing, sa contrepartie et sa combinaison de codes de compte. Interroger chaque caractéristique indépendamment, comme le fait cet article, ne permettra pas de les détecter.
Ce que je souhaite voir, c'est une version de cette approche où la ligne complète est intégrée et notée de manière holistique — plus proche de ce que fait AnoLLM avec la modélisation de la distribution — appliquée à un échantillon réaliste de données de transactions Beancount. L'idée du réglage fin synthétique mérite une exploration sérieuse ; générer des lots de registres Beancount synthétiques avec des anomalies injectées (comptes erronés, entrées dupliquées, montants invraisemblables) est simple, et affiner un modèle 7B sur ceux-ci pourrait produire un auditeur zero-shot utile sans nécessiter de données étiquetées réelles.
Que lire ensuite
- AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2 ; l'extension la plus directe de ce travail, utilisant une notation basée sur la vraisemblance au lieu d'une prédiction d'indice par prompt.
- CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798 ; résout l'écart d'ordonnancement des colonnes en alignant la sérialisation sur la structure causale.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025 ; un benchmark plus large couvrant les tâches de détection d'anomalies en TAL, utile pour comprendre où les LLM sont déjà fiables ou non en tant que détecteurs d'anomalies.
