Étude sur la détection d'anomalies par LLM (NAACL 2025) : Une taxonomie robuste, une couverture tabulaire absente
Les trois entrées précédentes de ce fil ont couvert AnoLLM, CausalTAD et AD-LLM — chacune ciblant spécifiquement la détection d'anomalies tabulaires. Cette étude de Ruiyao Xu et Kaize Ding, acceptée aux Findings de NAACL 2025, est censée relier ces fils en une cartographie unifiée du paysage. Je m'attendais à une taxonomie qui clarifierait l'espace de conception ; ce que j'ai obtenu est principalement un recensement de la détection d'anomalies dans les images et les vidéos avec un mince vernis de généralité.
L'article
L'étude de Xu et Ding (arXiv:2409.01980) propose d'organiser la détection d'anomalies et de données hors distribution (OOD) basées sur les LLM en deux classes de haut niveau : les LLM pour la détection, où le modèle identifie directement les anomalies, et les LLM pour la génération, où le modèle augmente les données d'entraînement ou produit des explications en langage naturel qui alimentent un détecteur en aval. Chaque classe se subdivise davantage. La détection se divise en méthodes basées sur le prompting (LLM figés ou ajustés interrogés avec des invites en langage naturel) et en méthodes basées sur le contraste (modèles de la famille CLIP qui évaluent le caractère anormal en comparant des patchs d'image à des descriptions textuelles). La génération se divise en méthodes centrées sur l'augmentation (génération de pseudo-labels OOD ou d'échantillons minoritaires synthétiques) et en méthodes centrées sur l'explication (production de justifications en langage naturel pour les événements signalés).
La liste de lecture GitHub associée couvre environ 39 articles : 24 sur la détection, 10 sur l'augmentation et 5 sur l'explication.
Idées clés
- Les méthodes basées sur le contraste dominent la détection d'anomalies d'image. WinCLIP atteint un AUROC de 91,8 % et 85,1 % sur la classification et la segmentation d'anomalies zero-shot sur MVTec-AD sans aucun réglage spécifique au jeu de données, ce qui est compétitif avec les méthodes supervisées entraînées sur ce même jeu de données.
- Les LLM figés se heurtent à un fossé de modalité pour les données non textuelles. L'étude note explicitement que « solliciter directement des LLM figés pour obtenir des résultats de détection d'anomalies ou d'OOD sur divers types de données donne souvent des performances sous-optimales en raison du fossé de modalité inhérent entre le texte et les autres modalités de données ».
- Le LoRA et le réglage par adaptateurs comblent une grande partie de ce fossé. Des méthodes comme AnomalyGPT et AnomalyCLIP utilisent des techniques d'ajustement à efficacité paramétrique et surpassent considérablement leurs homologues figés.
- La génération comme augmentation est sous-utilisée. Les pseudo-labels OOD au niveau de la légende générés par BLIP-2 surpassent les alternatives au niveau du mot ou de la description dans la détection d'OOD, ce qui suggère qu'une supervision textuelle plus riche est importante, même pour les tâches visuelles.
- La génération centrée sur l'explication est la sous-catégorie la plus récente. Des systèmes comme Holmes-VAD et VAD-LLaMA vont au-delà des indicateurs binaires pour générer des justifications en langage naturel pour les événements anormaux, principalement dans la vidéo-surveillance.
- Les données tabulaires sont presque absentes. L'étude cite une seule méthode — « Tabular » de Li et al. (2024) — qui convertit les lignes tabulaires en invites textuelles et les ajuste avec LoRA, mais ne fournit aucun chiffre comparatif.
Ce qui tient la route — et ce qui ne tient pas
La taxonomie à deux classes est véritablement propre et je l'utiliserai probablement pour organiser ma propre réflexion. La distinction détection-vs-génération capture une réelle bifurcation architecturale : soit vous demandez au LLM de classifier directement, soit vous l'utilisez pour construire un meilleur signal d'entraînement pour un détecteur traditionnel.
Ce que je ne peux pas accepter, c'est la présentation de l'article comme une étude de la détection d'anomalies au sens large. La couverture est massivement concentrée sur les images de défauts industriels (MVTec-AD, VisA) et la vidéo-surveillance (UCF-Crime, XD-Violence). Sur les quelque 39 articles répertoriés, presque aucun ne traite des données tabulaires ou financières. Les séries temporelles reçoivent quelques citations. Le tabulaire n'a droit qu'à une seule phrase. Ce n'est pas une carte du paysage pour Bean Labs — c'est une carte pour les chercheurs en vision par ordinateur qui veulent utiliser CLIP pour la détection de défauts.
Les auteurs reconnaissent que « les contraintes d'espace empêchent des résumés détaillés des mesures », ce qui est une façon polie de dire qu'il n'y a pas de tableaux comparatifs. Pour une étude de synthèse, l'absence de synthèse quantitative est une lacune importante. Les lecteurs ne peuvent pas utiliser cet article pour décider quel paradigme est le meilleur pour leur cas d'utilisation sans traquer chaque article cité individuellement.
Le défi des hallucinations est listé comme un problème ouvert, mais le traitement est superficiel — il nomme le risque sans analyser quels paradigmes de détection y sont plus ou moins sensibles, ni comment la génération centrée sur l'explication pourrait rendre les hallucinations plus détectables par une revue humaine.
Pourquoi c'est important pour l'IA financière
Deux sous-catégories sont pertinentes malgré une couverture axée sur l'image. Premièrement, la sous-catégorie de génération centrée sur l'explication est exactement ce dont les agents d'audit Beancount ont besoin : pas seulement un indicateur qu'une écriture comptable est anormale, mais une phrase en langage naturel expliquant pourquoi. Les auditeurs financiers ne peuvent pas agir sur une sortie binaire. Deuxièmement, le silence quasi total de l'étude sur la détection d'anomalies tabulaires est en soi instructif — il confirme que le fil AnoLLM, CausalTAD et AD-LLM que j'ai suivi est une zone pionnière plutôt qu'un terrain balisé, et que la conception d'outils d'audit basés sur les LLM pour les registres Beancount nécessite de synthétiser des enseignements issus de la détection d'anomalies visuelles qui n'ont pas encore été portés vers les environnements tabulaires.
Le compromis entre prompting et réglage fin est la conclusion la plus exploitable : le prompting zero-shot fonctionne comme une première approximation mais souffre du fossé de modalité ; le réglage fin basé sur LoRA sur des exemples étiquetés représentatifs comble ce fossé. Pour un déploiement Beancount avec des exemples d'anomalies étiquetés provenant de registres historiques, la voie du réglage fin semble plus fiable que le simple prompting.
Que lire ensuite
- « Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs » (arXiv:2406.03614) — utilise des plongements (embeddings) de transformeurs de phrases LLM sur de réelles écritures de grand livre ; un pont direct entre le cadre de cette étude et le cas d'utilisation tabulaire de Beancount.
- « Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework » (arXiv:2403.19735) — pipeline multi-agents pour la détection d'anomalies de données de marché ; le modèle de coordination multi-agents pourrait s'appliquer à l'audit de registres.
- AnomalyGPT (arXiv:2308.15366) — LVLM ajusté pour la détection d'anomalies industrielles avec localisation au niveau du pixel ; lire ceci clarifie ce que signifie réellement « le réglage des LLM pour la détection » sur le plan architectural, ce que l'étude décrit mais n'explique pas.
