Detección de anomalías Zero-Shot con LLM: Cómo se desempeña GPT-4 en datos tabulares
El artículo de AuditCopilot que leí el mes pasado evaluó los LLM en la detección de fraudes en asientos contables mediante el ajuste fino con datos de anomalías etiquetados. Desde entonces he tenido curiosidad por saber si el prompting zero-shot podría lograr la mayor parte del trabajo, sin necesidad de anomalías etiquetadas ni ajuste fino específico del dominio. Esa es exactamente la promesa de "Anomaly Detection of Tabular Data Using LLMs" de Li, Zhao, Qiu, Kloft, Smyth, Rudolph y Mandt (arXiv:2406.16308), un artículo de taller de mediados de 2024. El resultado principal —GPT-4 igualando métodos transductivos clásicos como ECOD— sonaba casi demasiado bueno, así que lo leí con detenimiento.
El artículo
La idea central es lo que los autores llaman detección de anomalías "a nivel de lote" (batch-level). En lugar de ajustar un modelo en datos de entrenamiento y luego calificar los puntos de prueba individualmente, se presenta al LLM un lote de N filas en el momento de la inferencia y se le pide que identifique qué filas son anómalas en relación con las demás en el mismo lote. Las anomalías son escasas dentro de cualquier lote, por lo que un modelo lo suficientemente capaz debería reconocer implícitamente el patrón mayoritario y señalar los valores atípicos. Sin reentrenamiento, sin ejemplos etiquetados: solo el conocimiento del mundo preentrenado del LLM y el razonamiento en contexto.
Evaluaron el método en el benchmark ODDS de 32 conjuntos de datos, una colección estándar de problemas de detección de anomalías tabulares del mundo real. Debido a los límites de la ventana de contexto, limitaron cada lote de evaluación a 150 filas y 10 columnas. Las características se serializan de una dimensión a la vez con la plantilla "Data i is x_i." y se le pide al LLM que nombre los índices anómalos en cada dimensión por separado; la puntuación final de anomalía de una fila agrega cuántas dimensiones la señalaron.
Para los modelos propietarios, prueban zero-shot. Para los modelos de código abierto (Llama2-7B, Llama2-70B, Mistral-7B), el rendimiento zero-shot es deficiente, por lo que también proponen un ajuste fino en un conjunto de datos sintético de 5.000 lotes generados a partir de mezclas gaussianas y distribuciones categóricas, sin necesidad de etiquetas de anomalías reales. Las variantes ajustadas se denominan Llama2-AD y Mistral-AD.
Ideas clave
- GPT-4 zero-shot logra un AUROC medio de 74,1 en los 32 conjuntos de datos de ODDS, en comparación con el 75,5 de ECOD (la mejor línea base clásica) y el 70,7 de KNN. GPT-3.5 se queda atrás con 68,3.
- Llama2-7B zero-shot obtiene solo 51,1 —esencialmente aleatorio— pero el ajuste fino en datos sintéticos lo eleva a 60,0, una ganancia de +8,9 puntos. Mistral-7B mejora de 62,4 a 69,1 (+6,7 puntos).
- El enfoque "a nivel de lote" es el movimiento conceptual interesante: el LLM actúa como un estimador de densidad implícito sobre el lote en lugar de un discriminador entrenado para separar clases.
- El ajuste fino utiliza LoRA solo en datos sintéticos gaussianos y categóricos; no se necesitan anotaciones de anomalías reales. Esa es una ventaja práctica significativa si se generaliza.
- El procesamiento de la salida (parsing) es frágil para los modelos de código abierto; los autores imponen restricciones gramaticales y utilizan patrones regex para extraer los índices de anomalías.
Qué se sostiene y qué no
La cobertura del benchmark es el mayor problema. El artículo compara solo con dos líneas base clásicas: KNN y ECOD. Isolation Forest, LOF, One-Class SVM y cualquier método de detección de anomalías de aprendizaje profundo están completamente ausentes. ECOD resulta ser una línea base fuerte en ODDS, pero GPT-4 no lo supera claramente (74,1 frente a 75,5), y tampoco lo hace Mistral-AD (69,1). Frente a un conjunto más amplio de líneas base, no es obvio que GPT-4 mantendría su posición.
El límite de 150 filas / 10 columnas es también una restricción seria que el artículo no aborda adecuadamente. Los libros contables reales tienen miles de transacciones y muchas más características. No se ha probado si el enfoque a nivel de lote es escalable, o si se degrada porque las anomalías se vuelven más difíciles de distinguir en lotes más grandes con patrones más diversos.
Las cifras de varianza son preocupantes. GPT-3.5 en el conjunto de datos breastw obtiene un AUROC de 63,1 ± 34,4. Ese no es un método que se pueda implementar cuando una sola ejecución puede puntuar plausiblemente en cualquier lugar entre 30 y 98. GPT-4 es más estable (98,7 ± 0,5 en breastw) pero muestra una varianza similar en otros conjuntos de datos.
La suposición de independencia de las características es otro punto débil. El LLM consulta cada dimensión de característica por separado y agrega las puntuaciones. No puede razonar sobre patrones de características conjuntas: una transacción con una combinación inusual de monto, contraparte y código de cuenta podría parecer normal en cualquier dimensión individual. Las anomalías multidimensionales, que son posiblemente el tipo más común y económicamente significativo en contabilidad, no serán detectadas por este enfoque sin un rediseño importante.
La literatura posterior confirma estas preocupaciones. AnoLLM (ICLR 2025) de Amazon Science adopta un enfoque diferente: en lugar de pedir índices de anomalías, ajusta un LLM para modelar la distribución de datos y utiliza la log-verosimilitud negativa como puntuación de anomalía, evitando por completo el frágil régimen de procesamiento de salida. CausalTAD (arXiv:2602.07798, febrero de 2026) identifica otra brecha compartida por este artículo y AnoLLM: el orden de las columnas durante la serialización es aleatorio, ignorando las relaciones causales entre las características. Reordenar las columnas para respetar la estructura causal mejora el AUC-ROC promedio de ~0,80 a 0,83 en seis benchmarks.
Por qué esto es importante para la IA en finanzas
A pesar de sus limitaciones, la dirección zero-shot es genuinamente interesante para la detección de anomalías en libros mayores de Beancount. El artículo de AuditCopilot requería un ajuste fino en ejemplos de anomalías etiquetados, algo difícil de obtener en la práctica porque los casos reales de fraude son raros, sensibles y etiquetarlos requiere contadores expertos. El enfoque de ajuste fino sintético del artículo (Llama2-AD, Mistral-AD) esquiva esto: se generan lotes de transacciones de apariencia realista con anomalías artificiales y se realiza el ajuste fino sin tocar nunca un libro mayor real.
El mecanismo a nivel de lote se ajusta de forma natural a cómo piensan realmente los contadores: "en las transacciones de este mes, ¿qué asientos parecen inusuales en relación con el resto?". Esa es la intuición detrás de las pruebas de asientos contables en la auditoría. El desafío es que las anomalías reales en los libros contables son multidimensionales: un pago que es normal en monto pero inusual en su combinación de tiempo, contraparte y código de cuenta. Consultar cada característica de forma independiente, como hace este artículo, no captará eso.
Lo que me gustaría ver es una versión de este enfoque donde la fila completa se incruste y se califique de manera holística —más cercano a lo que hace AnoLLM con el modelado de distribución— aplicado a una muestra realista de datos de transacciones de Beancount. La idea del ajuste fino sintético merece una exploración seria; generar lotes sintéticos de libros mayores de Beancount con anomalías inyectadas (cuentas incorrectas, asientos duplicados, montos inverosímiles) es sencillo, y ajustar un modelo de 7B en ellos podría producir un auditor zero-shot útil sin requerir ningún dato etiquetado real.
Qué leer a continuación
- AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; la extensión más directa de este trabajo, utilizando puntuación basada en verosimilitud en lugar de predicción de índices mediante prompts.
- CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; aborda la brecha del orden de las columnas alineando la serialización con la estructura causal.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; un benchmark más amplio que cubre tareas de detección de anomalías en NLP, útil para entender dónde los LLM ya son confiables o no como detectores de anomalías.
