Benchmark AD-LLM: GPT-4o Alcança 0,93+ AUROC Zero-Shot para Detecção de Anomalias em Texto
O AD-LLM avalia o GPT-4o e o Llama 3.1 8B em três funções de detecção de anomalias — detector zero-shot, aumentador de dados e seletor de modelos — em cinco conjuntos de dados de PLN; o GPT-4o atinge AUROC de 0,93–0,99 em zero-shot, mas a seleção de modelos baseada em LLM permanece pouco confiável, com implicações diretas para a IA de auditoria financeira.
