Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot
AD-LLM avalua GPT-4o i Llama 3.1 8B en tres rols de detecció d'anomalies —detector zero-shot, augmentador de dades i selector de models— en cinc conjunts de dades de PNL; GPT-4o arriba a un AUROC de 0,93–0,99 zero-shot, però la selecció de models basada en LLM continua sent poc fiable, amb implicacions directes per a la IA d'auditoria financera.
