Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles
AD-LLM compare GPT-4o et Llama 3.1 8B sur trois rôles de détection d'anomalies — détecteur zero-shot, moteur d'augmentation de données et conseiller en sélection de modèle — sur cinq jeux de données NLP ; GPT-4o atteint un AUROC de 0,93–0,99 en zero-shot, mais la sélection de modèle basée sur les LLM reste peu fiable, avec des implications directes pour l'IA d'audit financier.
