Une lecture critique de l'étude de Xu et Ding (NAACL 2025) sur la détection d'anomalies et d'OOD basée sur les LLM : si la taxonomie détection-vs-génération est pertinente, l'absence quasi totale de couverture des données tabulaires oblige les praticiens de l'IA financière à synthétiser eux-mêmes les enseignements issus des modèles de vision.
AD-LLM compare GPT-4o et Llama 3.1 8B sur trois rôles de détection d'anomalies — détecteur zero-shot, moteur d'augmentation de données et conseiller en sélection de modèle — sur cinq jeux de données NLP ; GPT-4o atteint un AUROC de 0,93–0,99 en zero-shot, mais la sélection de modèle basée sur les LLM reste peu fiable, avec des implications directes pour l'IA d'audit financier.
CausalTAD améliore la détection d'anomalies tabulaires basée sur les LLM en réordonnant les colonnes du tableau pour respecter les dépendances causales avant la sérialisation, faisant passer l'AUC-ROC moyenne de 0,803 à 0,834 par rapport à AnoLLM sur des benchmarks de types mixtes — avec des implications directes pour la détection d'anomalies dans les données de grand livre structurées.
AnoLLM (ICLR 2025) reformule la détection d'anomalies tabulaires comme une estimation de densité par LLM — un fine-tuning sur des lignes normales et un score par vraisemblance logarithmique négative (NLL). Il surpasse les méthodes classiques sur des ensembles de données de fraude à types mixtes, mais n'offre aucun avantage sur les données purement numériques, avec des implications concrètes pour la détection d'anomalies dans les écritures comptables Beancount.
GPT-4 atteint une AUROC moyenne de 74,1 sur le benchmark ODDS sans réglage fin — égalant presque la référence classique ECOD à 75,5 — mais échoue sur les anomalies multidimensionnelles et les ensembles de données à forte variance ; un examen critique de la détection d'anomalies zero-shot par LLM et ses implications pour l'audit automatisé des registres Beancount.
AuditCopilot applique des LLM open-source (Mistral-8B, Gemma, Llama-3.1) à la détection de fraude dans les écritures comptables d'entreprises, réduisant les faux positifs de 942 à 12 — mais l'ablation révèle que le LLM fonctionne principalement comme une couche de synthèse au-dessus des scores Isolation Forest, et non comme un détecteur d'anomalies indépendant.
Une lecture attentive de l'article de 2022 de Wei et al. sur la chaîne de pensée (Chain-of-Thought) et ses implications pour l'IA financière — pourquoi la CoT augmente la précision mais peut réduire le rappel lors de la détection d'événements rares, pourquoi le seuil d'échelle est crucial pour les agents en production, et les points de vigilance pour une équipe financière s'appuyant sur les LLM.