AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto
AD-LLM evalúa GPT-4o y Llama 3.1 8B en tres roles de detección de anomalías (detector zero-shot, aumentador de datos y selector de modelos) en cinco conjuntos de datos de PNL; GPT-4o alcanza un AUROC de 0,93–0,99 en zero-shot, pero la selección de modelos basada en LLM sigue siendo poco fiable, con implicaciones directas para la IA en auditoría financiera.
