AnoLLM: Ajuste Fino de LLMs para la Detección de Anomalías Tabulares en Datos Financieros
El artículo sobre detección de anomalías con LLM mediante zero-shot que leí hace dos días (arXiv:2406.16308) demostró que GPT-4 podía identificar valores atípicos tabulares sin ningún entrenamiento, igualando las referencias clásicas como ECOD en el benchmark ODDS. Pero tenía una debilidad obvia: pedirle al modelo que genere una lista de índices de filas anómalas es frágil; los modelos de código abierto suelen alucinar índices, salirse de los límites o marcar cada fila como sospechosa. AnoLLM, publicado en ICLR 2025 por Che-Ping Tsai, Ganyu Teng, Phillip Wallis y Wei Ding de Amazon, soluciona esa fragilidad y, al mismo tiempo, se adentra en conjuntos de datos de tipo mixto donde las referencias puramente numéricas empiezan a tener dificultades.
El artículo
AnoLLM redefine la detección de anomalías tabulares como una estimación de densidad del modelo de lenguaje en lugar de una clasificación mediante prompts. En lugar de pedirle al LLM que nombre qué filas parecen sospechosas, los autores realizan un ajuste fino de un modelo de lenguaje preentrenado con filas de entrenamiento serializadas que están dentro de la distribución (normales), y luego puntúan cada fila de prueba mediante su verosimilitud logarítmica negativa (NLL) bajo esa distribución aprendida. Una fila que no se parece en nada a la distribución de entrenamiento obtiene una NLL alta; esa es la puntuación de anomalía. Sin formatos de índice, sin análisis de salida, sin extracciones frágiles mediante regex.
La serialización convierte cada fila de la tabla en una cadena de lenguaje natural con nombres de características y valores. Para las columnas con valores de texto, la NLL se normaliza por columna para evitar el sesgo de longitud, donde las descripciones más largas acumularían mecánicamente mayores costos de probabilidad. Para las columnas numéricas y categóricas, se suma la NLL bruta a nivel de token en todo el campo. El modelo se ajusta en un entorno semisupervisado (solo las filas etiquetadas como normales entran en el entrenamiento) durante un máximo de 2.000 pasos utilizando entrenamiento distribuido por GPU.
Ideas clave
- El problema del formato de salida: los enfoques previos de predicción de índices requieren que los LLM generen de manera confiable los índices de las filas anómalas de un lote. Los modelos de la familia Llama suelen emparejar índices incorrectos con valores, generar índices más allá del tamaño del lote o simplemente listar todo como anómalo. La NLL evita esto por completo.
- AnoLLM logra el mejor rendimiento en seis conjuntos de datos de referencia con tipos de características mixtos, incluyendo la detección de fraude en seguros de vehículos y conjuntos de datos de fraude en comercio electrónico de Kaggle.
- En los 30 conjuntos de datos del benchmark ODDS, predominantemente numéricos, AnoLLM rinde a la par con las mejores referencias clásicas: no es claramente mejor, solo competitivo.
- La normalización de la NLL por columna para las características de texto es una decisión de ingeniería pequeña pero fundamental: sin ella, una descripción de transacción con treinta tokens dominaría la puntuación sobre un importe de dos dígitos, lo cual es un sesgo inductivo incorrecto.
- El contexto de la referencia de entrenamiento: el enfoque zero-shot de GPT-4 (arXiv:2406.16308) logra un AUROC promedio de 74.1 en ODDS, comparable a ECOD (75.5) y KNN (70.7). La ventaja de AnoLLM aparece específicamente en conjuntos de datos donde las características de texto y categóricas contienen una señal de anomalía significativa.
Lo que se mantiene y lo que no
La idea central de la NLL es sólida. Usar un modelo de lenguaje con ajuste fino como estimador de densidad sobre filas serializadas es fundamentado y maneja naturalmente la distribución conjunta de todas las columnas simultáneamente, algo que los detectores no supervisados clásicos aplicados columna por columna no pueden hacer limpiamente. La solución a la predicción de índices es realmente útil y la comparación con la referencia zero-shot es justa.
Lo que me inquieta es la brecha de costo-beneficio que el artículo no reporta suficientemente. AnoLLM requiere el ajuste fino y el despliegue de un LLM para la inferencia, lo que supone un compromiso de infraestructura sustancial en comparación con el ajuste de ECOD o IsolationForest en una CPU en cuestión de segundos. En el benchmark ODDS (puramente numérico), AnoLLM está solo "a la par", no mejor. Por lo tanto, el argumento a favor de AnoLLM reside enteramente en el régimen de tipos mixtos, donde los seis conjuntos de datos evaluados provienen de la detección de fraude en Kaggle. Seis conjuntos de datos es una base empírica delgada para una recomendación sólida, especialmente porque los conjuntos de datos de referencia de Kaggle suelen tener esquemas limpios, semántica de columnas fija y verdades fundamentales conocidas, cosas de las que suelen carecer los datos de los libros mayores en producción.
El problema del orden de las columnas también queda abierto. CausalTAD (arXiv:2602.07798) identificó inmediatamente esta brecha: AnoLLM serializa las columnas en un orden arbitrario, ignorando las relaciones causales entre los campos. Para datos estructurados con cadenas causales conocidas (el tipo de cuenta influye en los rangos de transacción válidos, lo que a su vez influye en la contraparte esperada), esta es una limitación real. CausalTAD plantea el reordenamiento como un problema de ordenamiento lineal y reporta una mejora constante sobre AnoLLM en más de 30 conjuntos de datos. Que la brecha existiera y fuera detectable tan rápido sugiere que el diseño de serialización de AnoLLM no fue pensado del todo.
También hay una cuestión de escala que el artículo no aborda: ¿con qué volumen de ejemplos de entrenamiento normales vale la pena el ajuste fino de un LLM sobre, por ejemplo, un modelo de aprendizaje profundo tabular entrenado directamente sobre las características numéricas? Para libros mayores de Beancount personales con unos pocos miles de entradas, el costo de cómputo podría eclipsar fácilmente cualquier ganancia de precisión.
Por qué esto es importante para la IA en finanzas
Los asientos contables de Beancount son exactamente el tipo de datos mixtos a los que se dirige AnoLLM: importes (numéricos), nombres de cuentas (texto estructurado), beneficiario/narración (texto libre), etiquetas (categóricas), fechas (estructuradas). Una sola fila como 2024-03-15 * "AWS" "Factura de nube" Assets:Checking -$2,400 codifica información en todos estos tipos simultáneamente. Los detectores de anomalías clásicos tienen dificultades aquí porque necesitan un manejo separado para cada tipo de columna y pierden las correlaciones entre ellas: el patrón conjunto de que las facturas de "AWS" deberían estar en un rango determinado e impactar en una cuenta específica.
El enfoque NLL de AnoLLM, en principio, aprendería estos patrones conjuntos a partir de entradas históricas normales y marcaría desviaciones en cualquier combinación de columnas. Esto es potencialmente más útil que los JET basados en reglas o las pruebas estadísticas de una sola columna.
Dicho esto, la restricción de la contabilidad de partida doble es un conocimiento estructural que AnoLLM no puede aprender solo de filas serializadas: los débitos deben ser iguales a los créditos y se deben respetar las jerarquías de cuentas. Estos invariantes de dominio son restricciones estrictas, no regularidades estadísticas, y ningún ajuste fino de LLM en filas históricas los hará cumplir de manera confiable si los datos de entrenamiento contienen excepciones o artefactos de redondeo. La arquitectura correcta probablemente combine la puntuación NLL de AnoLLM para anomalías semánticas con comprobaciones de reglas explícitas para las estructurales.
Qué leer a continuación
- CausalTAD (arXiv:2602.07798): mejora directamente a AnoLLM inyectando un orden causal de columnas; es el seguimiento más inmediato a evaluar.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025): proporciona la evaluación sistemática multparadigma que falta en los artículos de métodos individuales.
- "Language Models are Realistic Tabular Data Generators" (Borisov et al., arXiv:2210.06280, ICLR 2023): el modelo BE-GREAT que AnoLLM utiliza como base; comprenderlo aclara qué mejora AnoLLM realmente más allá de la predicción de índices.
