Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles
Les deux derniers articles de cette série traitaient d'AnoLLM et de CausalTAD — des approches par ajustement fin (fine-tuning) et par ingénierie de prompts pour la détection d'anomalies tabulaires. Avant de déployer l'une ou l'autre à l'échelle de la production, il est nécessaire de savoir où se situent réellement les LLM sur un éventail plus large de paradigmes de détection d'anomalies. C'est l'objectif explicite d'AD-LLM, qui évalue les LLM à travers trois rôles distincts : détecteur zero-shot, moteur d'augmentation de données et conseiller pour la sélection de modèles. L'accent est mis sur les données textuelles NLP plutôt que sur les écritures comptables tabulaires, mais les leçons méthodologiques sont transférables.
L'article
Tiankai Yang, Yi Nian et leurs collègues de l'USC et de Texas A&M introduisent AD-LLM (arXiv:2412.11142, ACL Findings 2025), le premier benchmark pour évaluer systématiquement les LLM à travers trois paradigmes de détection d'anomalies sur des jeux de données NLP. Le cadre est celui de la classification à classe unique (one-class classification) : les données d'entraînement ne contiennent que des échantillons normaux, et le modèle doit signaler les anomalies lors du test. Les cinq jeux de données — AG News, BBC News, IMDB Reviews, N24 News et SMS Spam — proviennent tous de tâches de classification de texte où une catégorie est désignée comme anormale. L'article confronte deux LLM, GPT-4o et Llama 3.1 8B Instruct, à 18 lignes de base (baselines) non supervisées traditionnelles allant de méthodes de bout en bout (CVDD, DATE) à des combinaisons en deux étapes d'embeddings et de détecteurs (embeddings OpenAI + LUNAR, LOF, Isolation Forest, etc.).
Idées clés
- La détection zero-shot fonctionne bien pour le texte. GPT-4o obtient un AUROC de 0,9293 à 0,9919 sur les cinq jeux de données dans le paramètre Normal+Anomalie ; Llama 3.1 atteint 0,8612 à 0,9487. La meilleure ligne de base traditionnelle, OpenAI + LUNAR, obtient environ 0,92 sur AG News — GPT-4o l'égale ou la bat sans aucun entraînement.
- L'augmentation synthétique aide de manière constante mais modeste. Les échantillons synthétiques générés par LLM améliorent le pipeline OpenAI + LUNAR sur les cinq jeux de données. L'augmentation par description de catégorie améliore également la plupart des lignes de base, bien que les gains soient inégaux — Llama 3.1 améliore l'AUROC de +0,07 sur IMDB Reviews, mais les résultats ailleurs sont plus faibles.
- La sélection de modèle est le maillon faible. GPT-o1-preview recommande des modèles qui surpassent la performance moyenne de base sur la plupart des jeux de données, et s'approche occasionnellement de la meilleure méthode (par exemple, sur IMDB Reviews et SMS Spam). Mais il n'identifie jamais de manière fiable le meilleur performeur, et les auteurs reconnaissent que les recommandations sont basées sur des entrées simplistes manquant de statistiques spécifiques aux données.
- L'écart entre l'open-source et le propriétaire est réel. L'avantage d'AUROC de GPT-4o sur Llama 3.1 8B est de 4 à 13 points selon le jeu de données, un écart cohérent avec le schéma observé dans les articles sur la détection d'anomalies tabulaires en zero-shot.
- La détection d'anomalies en NLP manque encore d'un benchmark définitif. Cinq jeux de données, tous dérivés de corpus de classification, c'est peu. L'article compagnon NLP-ADBench (EMNLP Findings 2025) passe à huit jeux de données et 19 algorithmes, mais utilise toujours la même construction de "catégorie-sémantique-comme-anomalie" qui rend ces tâches quelque peu artificielles.
Ce qui tient la route — et ce qui ne tient pas
Les résultats sur le zero-shot sont crédibles. Utiliser les LLM comme scoreurs sans ajustement fin sur des données d'anomalies étiquetées est réellement utile lorsque la classe d'anomalie est sémantiquement cohérente — un message de spam diffère d'un message légitime de manières qu'un modèle de langage bien entraîné comprend. Les chiffres d'AUROC sont élevés, et la comparaison avec des lignes de base solides basées sur les embeddings OpenAI est équitable.
La portée, cependant, est étroite d'une manière que l'article minimise. Les cinq jeux de données encodent les anomalies comme une catégorie de sujet différente — spam contre SMS légitimes, informations d'un éditeur exclu contre flux habituels. Cela signifie que le LLM effectue essentiellement une classification thématique, une tâche pour laquelle il est explicitement pré-entraîné. Le benchmark n'inclut pas d'anomalies sémantiques au sein d'une seule catégorie (par exemple, des transactions inhabituelles au sein d'un même type de compte), ce qui est précisément le genre d'anomalie qui importe pour l'audit financier.
Les tâches d'augmentation de données et de sélection de modèles sont évaluées sur les mêmes cinq jeux de données, de sorte que l'article finit par évaluer si les LLM peuvent améliorer marginalement différentes facettes du même problème étroit. Les auteurs listent librement six limitations — notamment le fait qu'ils ne testent qu'un sous-ensemble de LLM, excluent les régimes few-shot et d'ajustement fin, et s'appuient sur des entrées simplistes pour la sélection de modèles — ce qui est intellectuellement honnête mais souligne également le caractère préliminaire de ce benchmark.
Un résultat à signaler pour les sceptiques : les scores AUPRC sont nettement inférieurs à l'AUROC pour les deux modèles. Llama 3.1 sur BBC News atteint un AUROC de 0,8612 mais seulement un AUPRC de 0,3960, reflétant le déséquilibre des classes dans la configuration à classe unique. Dans des contextes d'audit de haute précision, l'AUPRC est la métrique la plus significative, et ici le tableau est moins flatteur.
Pourquoi c'est important pour l'IA financière
Le programme de Bean Labs implique deux cas d'utilisation de détection d'anomalies : repérer des écritures comptables inhabituelles en temps réel (tabulaire, structuré) et signaler des textes narratifs suspects dans les factures, les mémos ou les tickets de support (NLP non structuré). AD-LLM s'adresse directement au second cas et nous donne un plafond réaliste : GPT-4o peut détecter en zero-shot des anomalies au niveau du sujet dans le texte avec un AUROC supérieur à 0,93 sur des jeux de données propres et équilibrés. C'est un indicateur utile, mais les anomalies narratives dans les grands livres sont plus subtiles — un mémo de facture qui décrit un service de routine mais appartient à un fournisseur signalé pour des schémas suspects n'est pas un problème de classification thématique. Le benchmark fournit un point de départ, pas une réponse finale.
La conclusion sur la sélection de modèle est également intéressante pour la conception de systèmes. Le rêve de demander à un LLM "quel détecteur d'anomalies dois-je utiliser sur ce jeu de données ?" et d'obtenir une réponse fiable ne se concrétise pas encore. Cela signifie que choisir entre un ajustement fin de style AnoLLM, un prompting causal de style CausalTAD ou une méthode d'embedding classique nécessite toujours un jugement humain ou une évaluation empirique systématique — cela ne peut pas être délégué à un conseiller LLM.
Que lire ensuite
- NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — le benchmark compagnon du même groupe, couvrant huit jeux de données et 19 algorithmes ; il fournit le contexte plus large des lignes de base classiques que la portée de cinq jeux de données d'AD-LLM ne peut offrir.
- Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — passe en revue l'ensemble du paysage des approches de détection d'anomalies basées sur les LLM à travers les modalités textuelles, d'image et tabulaires ; il replace AD-LLM par rapport aux travaux antérieurs.
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — le pendant tabulaire ; comparer son approche basée sur la vraisemblance (likelihood) à la stratégie zero-shot basée sur les prompts d'AD-LLM permet de clarifier quel paradigme est le plus approprié pour les écritures de grand livre Beancount.
