Ir al contenido principal

CausalTAD: Ordenación causal de columnas para la detección de anomalías en tablas con LLM

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

El registro anterior cubrió AnoLLM, que ajusta un LLM pequeño para calificar anomalías tabulares mediante la log-verosimilitud negativa. CausalTAD (arXiv:2602.07798) plantea una pregunta de seguimiento aguda: ¿importa el orden en que se introducen las columnas en ese LLM? La respuesta resulta ser afirmativa, e inyectar una estructura causal en la ordenación proporciona una mejora consistente y reproducible.

El artículo

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

Wang et al. proponen CausalTAD, un método que se sitúa sobre los detectores de anomalías LLM al estilo de AnoLLM y realiza un cambio específico: en lugar de serializar las filas tabulares en un orden de columnas aleatorio o arbitrario, descubre las dependencias causales entre las columnas y las reordena para respetar esas dependencias antes de que el LLM lea la fila.

El artículo tiene dos partes móviles. Primero, un módulo de ordenación de columnas basado en causalidad. Los autores adaptan el marco de extracción de factores COAT: un LLM lee los metadatos de las columnas y muestras para extraer factores semánticos de alto nivel (para transacciones de tarjetas de crédito, un factor como "Compensación" podría abarcar las columnas de importe y de comercio). A partir de estos factores, tres algoritmos de descubrimiento causal —PC, LiNGAM y FCI— construyen cada uno un grafo causal dirigido sobre los factores. El problema de reordenación de columnas se convierte entonces en un Problema de Ordenación Lineal: encontrar la permutación π que maximice la suma de los pesos de las aristas dirigidas, de modo que las columnas causa aparezcan antes que las columnas efecto en el texto serializado. Dado que el problema de programación lineal tiene muchas soluciones casi óptimas, muestrean K ≈ 10 ordenaciones dentro del 90% del óptimo y promedian sobre ellas.

Segundo, un módulo de reponderación consciente de la causalidad. No todas las columnas son igualmente relevantes. Una columna que influye en muchos factores obtiene un peso mayor αj = |M⁻¹(cj)|, el recuento de factores a los que contribuye. La puntuación final de anomalía es el promedio ponderado de las log-verosimilitudes negativas por columna a través de las K ordenaciones.

Ideas clave

  • La ordenación de columnas es un sesgo inductivo no trivial para los LLM autorregresivos: colocar una columna causa antes que su columna efecto permite al modelo condicionarse en el contexto correcto al asignar la verosimilitud al efecto.
  • El descubrimiento causal a nivel de factores (en lugar de a nivel de columnas brutas) permite que el método maneje tablas de tipos mixtos donde el descubrimiento causal directo entre columnas heterogéneas es ruidoso.
  • En 6 conjuntos de datos de referencia de tipos mixtos, CausalTAD con SmolLM-135M alcanza un AUC-ROC promedio de 0.834 frente al 0.803 de AnoLLM — una mejora absoluta de 3.1 puntos con el mismo modelo base.
  • Específicamente en el conjunto de datos Fake Job Posts, CausalTAD obtiene 0.873 frente al 0.800 de AnoLLM — una ganancia relativa del 9.1%, lo suficientemente grande como para ser relevante en un sistema de triaje real.
  • En 30 conjuntos de datos de referencia numéricos ODDS, CausalTAD logra el mejor AUC-ROC promedio, superando consistentemente a los modelos base clásicos (Isolation Forest, ECOD, KNN) y a los métodos profundos (DeepSVDD, SLAD).
  • Los tres algoritmos de descubrimiento causal superaron la ordenación aleatoria en la ablación; LiNGAM aventaja ligeramente a PC y FCI en los conjuntos de datos mixtos.

Qué se sostiene — y qué no

La afirmación central —que el orden causal de las columnas ayuda— está bien fundamentada. La ablación es clara: sustituir la ordenación aleatoria por cualquiera de los tres métodos de descubrimiento causal mejora los resultados en la referencia de Fake Job Posts (de 0.832 a 0.870–0.873), y la reponderación por recuento de factores ayuda aún más en cada configuración. Es una historia creíble.

Lo que encuentro menos convincente es la suposición de arranque (bootstrapping). El grafo causal se construye utilizando un LLM para extraer factores semánticos de los mismos datos que el sistema debe analizar. Si el LLM no comprende el dominio —por ejemplo, para un sistema de contabilidad a medida con nombres de columnas no estándar— la extracción de factores será errónea, y un grafo causal deficiente es posiblemente peor que una ordenación aleatoria porque introduce un sesgo sistemático. Los autores reconocen este riesgo ("depende de la capacidad de los LLM para la extracción de factores") pero no evalúan la precisión de la extracción de factores de forma independiente.

También existe un problema de sobrecarga computacional que es más serio de lo que sugiere el artículo. Ejecutar tres algoritmos de descubrimiento causal, resolver un problema de programación lineal, muestrear K ordenaciones y luego ejecutar la inferencia en K versiones serializadas de cada punto de prueba multiplica el coste de inferencia por K. Para un libro contable con millones de entradas, esto importa. El artículo señala que "el trabajo futuro puede centrarse en mejorar la eficiencia" pero no ofrece un perfil de rendimiento concreto.

Finalmente, los 30 conjuntos de datos numéricos ODDS están muy estudiados y posiblemente saturados para métodos como este. La señal más significativa se encuentra en los 6 conjuntos de datos de tipos mixtos —que son los realistas para las finanzas— y las mejoras allí, aunque reales, son algo modestas en términos absolutos.

Por qué esto importa para la IA en finanzas

Las transacciones de Beancount poseen una estructura causal genuina: el importe del apunte impulsa causalmente la selección de la cuenta, la cuenta impulsa la expectativa de la contraparte, y el texto del comentario está causalmente aguas abajo de los tres. La serialización aleatoria de columnas ignora esto, lo que significa que un modelo estilo AnoLLM ve "nota: comestibles | cuenta: Gastos:Alimentación | importe: $4200" con la misma naturalidad que la versión correctamente ordenada.

CausalTAD ofrece una forma fundamentada de codificar que "el importe y la cuenta van primero" sin programarlo como una regla rígida. Para los agentes de auditoría de Bean Labs, esto sugiere una elección arquitectónica práctica: antes de calificar anomalías en un lote de transacciones, realizar una pasada para descubrir el grafo causal sobre el esquema de columnas del libro contable y luego usar esa ordenación fija para todas las inferencias posteriores. La sobrecarga se paga una vez a nivel de esquema, no por transacción.

El ejemplo de detección de fraude en tarjetas de crédito del artículo tiene esencialmente la misma estructura de tareas que la detección de anomalías en libros contables: características heterogéneas, etiquetas poco frecuentes y un orden causal que los expertos del dominio conocen intuitivamente pero que los LLM ignorarían de otro modo.

Qué leer a continuación

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — la evaluación comparativa sistemática a través de tres paradigmas de detección de anomalías con LLM en los que encaja CausalTAD; leerlo ofrece el panorama completo en lugar de la comparación individual entre AnoLLM y CausalTAD.
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — el marco de extracción de factores que adapta CausalTAD; comprender cómo funciona aclara dónde puede fallar la calidad del grafo causal.
  • Causal discovery in heterogeneous data: a survey — para comprender los méritos relativos de PC frente a LiNGAM frente a FCI en datos tabulares de tipos mixtos, ya que el artículo trata a los tres como intercambiables pero parten de diferentes suposiciones de independencia.