Ir al contenido principal

Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente

· 6 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Las tres entradas anteriores de este hilo trataron sobre AnoLLM, CausalTAD y AD-LLM, cada una enfocada específicamente en la detección de anomalías tabulares. Este estudio de Ruiyao Xu y Kaize Ding, aceptado en los Findings de NAACL 2025, supuestamente debería entrelazar esos hilos en un mapa unificado del panorama. Esperaba una taxonomía que aclarara el espacio de diseño; lo que obtuve es principalmente un estudio sobre la detección de anomalías en imágenes y videos con un barniz superficial de generalidad.

El artículo

2026-07-03-llm-anomaly-ood-detection-survey

El estudio de Xu y Ding (arXiv:2409.01980) propone organizar la detección de anomalías y de fuera de distribución (OOD) basada en LLM en dos clases de alto nivel: LLMs para Detección, donde el modelo identifica directamente las anomalías, y LLMs para Generación, donde el modelo aumenta los datos de entrenamiento o produce explicaciones en lenguaje natural que alimentan a un detector posterior. Cada clase se subdivide aún más. La detección se divide en métodos basados en prompts (LLMs congelados o ajustados consultados con prompts en lenguaje natural) y métodos basados en contraste (modelos de la familia CLIP que califican la anomalía comparando parches de imagen con descripciones de texto). La generación se divide en métodos centrados en el aumento (generación de etiquetas pseudo-OOD o muestras minoritarias sintéticas) y métodos centrados en la explicación (producción de justificaciones en lenguaje natural para los eventos marcados).

La lista de lectura de GitHub que lo acompaña cubre aproximadamente 39 artículos: 24 sobre detección, 10 sobre aumento y 5 sobre explicación.

Ideas clave

  • Los métodos basados en contraste dominan la detección de anomalías en imágenes. WinCLIP logra un 91.8% y un 85.1% de AUROC en clasificación y segmentación de anomalías zero-shot en MVTec-AD sin ningún ajuste específico para el conjunto de datos, lo cual es competitivo con los métodos supervisados entrenados en ese conjunto.
  • Los LLMs congelados se enfrentan a una brecha de modalidad para datos que no son de texto. El estudio señala explícitamente que "el uso directo de prompts en LLMs congelados para resultados de detección de anomalías u OOD a través de varios tipos de datos a menudo produce un rendimiento subóptimo debido a la brecha de modalidad inherente entre el texto y otras modalidades de datos".
  • LoRA y el ajuste de adaptadores recuperan gran parte de esa brecha. Métodos como AnomalyGPT y AnomalyCLIP realizan un ajuste fino con técnicas de eficiencia de parámetros y superan sustancialmente a sus contrapartes congeladas.
  • La generación como aumento está infrautilizada. Las etiquetas pseudo-OOD a nivel de subtítulo generadas por BLIP-2 superan a las alternativas a nivel de palabra y descripción en la detección de OOD, lo que sugiere que una supervisión de texto más rica es importante incluso para tareas visuales.
  • La generación centrada en la explicación es la subcategoría más reciente. Sistemas como Holmes-VAD y VAD-LLaMA van más allá de las marcas binarias para generar justificaciones en lenguaje natural para eventos anómalos, principalmente en videos de vigilancia.
  • Los datos tabulares están casi ausentes. El estudio cita un solo método — "Tabular" de Li et al. (2024) — que convierte filas tabulares en prompts de texto y realiza un ajuste fino con LoRA, pero no proporciona cifras comparativas.

Qué se mantiene y qué no

La taxonomía de dos clases es genuinamente limpia y probablemente la usaré para organizar mi propio pensamiento. La distinción entre detección y generación captura una bifurcación arquitectónica real: o le pides al LLM que clasifique directamente o lo usas para construir una mejor señal de entrenamiento para un detector tradicional.

Lo que no puedo aceptar es el encuadre del artículo como un estudio sobre la detección de anomalías en general. La cobertura está abrumadoramente concentrada en imágenes de defectos industriales (MVTec-AD, VisA) y video de vigilancia (UCF-Crime, XD-Violence). De los aproximadamente 39 artículos catalogados, casi ninguno aborda datos tabulares o financieros. Las series temporales reciben algunas citas. Lo tabular recibe una oración. Este no es un mapa del panorama para Bean Labs; es un mapa para investigadores de visión artificial que quieren usar CLIP para la detección de defectos.

Los autores reconocen que "las limitaciones de espacio impiden resúmenes detallados de métricas", lo cual es una forma cortés de decir que no hay tablas comparativas. Para un artículo de revisión (survey), la ausencia de síntesis cuantitativa es una brecha significativa. Los lectores no pueden usar este artículo para decidir qué paradigma es mejor para su caso de uso sin rastrear individualmente cada artículo citado.

El desafío de las alucinaciones se menciona como un problema abierto, pero el tratamiento es superficial: nombra el riesgo sin analizar qué paradigmas de detección son más o menos susceptibles, o cómo la generación centrada en la explicación podría hacer que las alucinaciones sean más detectables a través de la revisión humana.

Por qué esto es importante para la IA en finanzas

Dos subcategorías son relevantes a pesar de la cobertura centrada en imágenes. Primero, la subcategoría de generación centrada en la explicación es exactamente lo que los agentes de auditoría de Beancount necesitan: no solo una marca de que un asiento contable es anómalo, sino una oración en lenguaje natural que explique por qué. Los auditores financieros no pueden actuar sobre una salida binaria. Segundo, el silencio casi total del estudio sobre la detección de anomalías tabulares es informativo en sí mismo: confirma que el hilo de AnoLLM, CausalTAD y AD-LLM que he estado siguiendo es un área de vanguardia y no un camino trillado, y que diseñar herramientas de auditoría basadas en LLM para libros mayores de Beancount requiere sintetizar ideas de la detección de anomalías en visión que aún no se han trasladado a entornos tabulares.

El compromiso entre el uso de prompts y el ajuste fino es el hallazgo más aplicable: el prompting zero-shot funciona como una primera aproximación pero sufre por la brecha de modalidad; el ajuste fino basado en LoRA sobre ejemplos etiquetados representativos cierra esa brecha. Para un despliegue de Beancount con ejemplos de anomalías etiquetados de libros mayores históricos, la vía del ajuste fino parece más confiable que el simple uso de prompts.

Qué leer a continuación

  • "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614): utiliza incrustaciones (embeddings) de sentence-transformers de LLM en asientos contables reales del libro mayor; un puente directo desde el marco de este estudio al caso de uso tabular de Beancount.
  • "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735): flujo de trabajo multi-agente para la detección de anomalías en datos de mercado; el patrón de coordinación multi-agente puede trasladarse a la auditoría de libros mayores.
  • AnomalyGPT (arXiv:2308.15366): LVLM ajustado para la detección de anomalías industriales con localización a nivel de píxel; leer esto aclara qué significa arquitectónicamente el "ajuste de LLM para detección", algo que el estudio describe pero no explica.