Ir al contenido principal

AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Las últimas dos entradas de esta serie cubrieron AnoLLM y CausalTAD: enfoques de detección de anomalías en datos tabulares basados en ajuste fino (fine-tuning) e ingeniería de prompts. Antes de implementar cualquiera de ellos a escala de producción, es necesario saber en qué punto se encuentran realmente los LLM en una gama más amplia de paradigmas de detección de anomalías. Ese es el objetivo explícito de AD-LLM, que evalúa los LLM en tres roles distintos: detector zero-shot, motor de aumento de datos y asesor de selección de modelos. El enfoque se centra en datos de texto de PNL (procesamiento de lenguaje natural) en lugar de entradas de libros mayores tabulares, pero las lecciones metodológicas son transferibles.

El artículo

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Tiankai Yang, Yi Nian y sus colegas de la USC y Texas A&M presentan AD-LLM (arXiv:2412.11142, ACL Findings 2025), el primer benchmark para evaluar sistemáticamente los LLM a través de tres paradigmas de detección de anomalías en conjuntos de datos de PNL. El entorno es la clasificación de una clase: los datos de entrenamiento contienen solo muestras normales y el modelo debe marcar las anomalías en el momento de la prueba. Los cinco conjuntos de datos —AG News, BBC News, IMDB Reviews, N24 News y SMS Spam— se derivan de tareas de clasificación de texto con una categoría designada como anómala. El artículo enfrenta a dos LLM, GPT-4o y Llama 3.1 8B Instruct, contra 18 líneas base no supervisadas tradicionales que abarcan métodos de extremo a extremo (CVDD, DATE) y combinaciones de dos pasos de incrustación más detector (embeddings de OpenAI + LUNAR, LOF, Isolation Forest, etc.).

Ideas clave

  • La detección zero-shot funciona bien para texto. GPT-4o obtiene un AUROC de 0,9293–0,9919 en los cinco conjuntos de datos en la configuración Normal+Anomalía; Llama 3.1 alcanza 0,8612–0,9487. La mejor línea base tradicional, OpenAI + LUNAR, obtiene alrededor de 0,92 en AG News; GPT-4o iguala o supera esto sin ningún entrenamiento.
  • El aumento sintético ayuda, de forma consistente pero modesta. Las muestras sintéticas generadas por LLM mejoran el flujo de trabajo de OpenAI + LUNAR en los cinco conjuntos de datos. El aumento de la descripción de la categoría también mejora la mayoría de las líneas base, aunque las ganancias son desiguales: Llama 3.1 mejora el AUROC en +0,07 en IMDB Reviews, pero los resultados en otros lugares son menores.
  • La selección de modelos es el eslabón débil. GPT-o1-preview recomienda modelos que superan el rendimiento promedio de la línea base en la mayoría de los conjuntos de datos y, ocasionalmente, se acerca al mejor método (por ejemplo, en IMDB Reviews y SMS Spam). Pero nunca identifica de manera fiable al de mejor rendimiento, y los autores reconocen que las recomendaciones se basan en entradas simplistas que carecen de estadísticas específicas del conjunto de datos.
  • La brecha entre código abierto y propietario es real. La ventaja de AUROC de GPT-4o sobre Llama 3.1 8B es de 4 a 13 puntos según el conjunto de datos, una brecha consistente con el patrón visto en los artículos de detección de anomalías tabulares zero-shot.
  • La detección de anomalías en PNL aún carece de un benchmark definitivo. Cinco conjuntos de datos, todos derivados de corpus de clasificación, es una muestra reducida. El artículo complementario NLP-ADBench (EMNLP Findings 2025) amplía a ocho conjuntos de datos y 19 algoritmos, pero sigue utilizando la misma construcción de categoría semántica como anomalía que hace que estas tareas sean algo artificiales.

Qué se sostiene y qué no

Los hallazgos de zero-shot son creíbles. Usar LLM como evaluadores sin un ajuste fino en datos de anomalías etiquetados es genuinamente útil cuando la clase de anomalía es semánticamente coherente: un mensaje de spam difiere de un mensaje legítimo de maneras que un modelo de lenguaje bien entrenado comprende. Las cifras de AUROC son altas y la comparación con líneas base sólidas basadas en embeddings de OpenAI es justa.

Sin embargo, el alcance es estrecho de una manera que el artículo minimiza. Los cinco conjuntos de datos codifican las anomalías como una categoría temática diferente: spam frente a SMS legítimos, noticias de un editor excluido frente a medios dentro de la distribución. Esto significa que el LLM está haciendo esencialmente una clasificación de temas, una tarea para la cual está explícitamente pre-entrenado. El benchmark no incluye anomalías semánticas dentro de una sola categoría (por ejemplo, transacciones inusuales dentro del mismo tipo de cuenta), que es precisamente el tipo de anomalía que importa para la auditoría financiera.

Las tareas de aumento de datos y selección de modelos se evalúan en los mismos cinco conjuntos de datos, por lo que el artículo termina evaluando si los LLM pueden mejorar marginalmente diferentes ángulos del mismo problema estrecho. Los autores enumeran libremente seis limitaciones, incluyendo que solo prueban un subconjunto de LLM, excluyen regímenes de few-shot y fine-tuning, y dependen de entradas simplistas para la selección de modelos, lo cual es intelectualmente honesto pero también señala cuán preliminar es este benchmark.

Un resultado que vale la pena señalar para los escépticos: las puntuaciones de AUPRC son sustancialmente más bajas que las de AUROC para ambos modelos. Llama 3.1 en BBC News alcanza un AUROC de 0,8612 pero solo un AUPRC de 0,3960, lo que refleja el desequilibrio de clases en la configuración de una sola clase. En contextos de auditoría de alta precisión, el AUPRC es la métrica más significativa, y aquí el panorama es menos halagador.

Por qué esto importa para la IA financiera

La agenda de Bean Labs involucra dos casos de uso de detección de anomalías: capturar entradas de libros mayores inusuales en tiempo real (tabulares, estructuradas) y marcar texto narrativo sospechoso en facturas, memorandos o tickets de soporte (PNL no estructurado). AD-LLM habla directamente al segundo caso y nos da un techo realista: GPT-4o puede detectar anomalías a nivel de tema en texto en modo zero-shot con un AUROC superior a 0,93 en conjuntos de datos limpios y equilibrados. Esa es una referencia útil, pero las anomalías en la narrativa de los libros mayores son más sutiles: un memorando de factura que describe un servicio rutinario pero que pertenece a un proveedor marcado por patrones sospechosos no es un problema de clasificación de temas. El benchmark proporciona un punto de partida, no una respuesta final.

El hallazgo sobre la selección de modelos es interesante por separado para el diseño de sistemas. El sueño de preguntar a un LLM "¿qué detector de anomalías debería usar en este conjunto de datos?" y obtener una respuesta fiable aún no se cumple. Eso significa que elegir entre el ajuste fino al estilo AnoLLM, el prompting causal al estilo CausalTAD o un método de incrustación clásico todavía requiere juicio humano o una evaluación empírica sistemática; no puede delegarse en un asesor LLM.

Qué leer a continuación

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025): el benchmark complementario del mismo grupo, que cubre ocho conjuntos de datos y 19 algoritmos; proporciona el contexto más amplio de líneas base clásicas que el alcance de cinco conjuntos de datos de AD-LLM no puede ofrecer.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025): analiza todo el panorama de los enfoques de detección de anomalías basados en LLM en modalidades de texto, imagen y tabulares; contextualiza dónde se sitúa AD-LLM en relación con trabajos previos.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025): la contraparte tabular; comparar su enfoque basado en la verosimilitud con la estrategia zero-shot basada en prompts de AD-LLM aclara qué paradigma es más apropiado para las entradas del libro mayor de Beancount.