AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres
L'article sobre detecció d'anomalies amb LLM zero-shot que vaig llegir fa dos dies (arXiv:2406.16308) mostrava que GPT-4 podia identificar valors atípics tabulars sense cap entrenament, igualant referents clàssics com ECOD en el benchmark ODDS. Però tenia una feblesa òbvia: demanar al model que generés una llista d'índexs de files anòmales és fràgil — els models de codi obert sovint al·lucinen índexs, surten dels límits o marquen cada fila com a sospitosa. AnoLLM, publicat a l'ICLR 2025 per Che-Ping Tsai, Ganyu Teng, Phillip Wallis i Wei Ding d'Amazon, soluciona aquesta fragilitat alhora que avança en conjunts de dades de tipus mixt on els referents purament numèrics comencen a tenir dificultats.
L'article
AnoLLM reformula la detecció d'anomalies tabulars com una estimació de densitat del model de llenguatge en lloc d'una classificació mitjançant prompts. En lloc de demanar a l'LLM que identifiqui quines files semblen sospitoses, els autors realitzen un ajust finit (fine-tuning) d'un model de llenguatge preentrenat amb files d'entrenament serialitzades de la distribució normal, i després puntuen cada fila de prova mitjançant la seva log-versemblança negativa (NLL) sota la distribució apresa. Una fila que no s'assembla en res a la distribució d'entrenament obté una NLL alta — aquesta és la puntuació d'anomalia. Sense formats d'índexs, sense anàlisi de sortida, sense extraccions fràgils per regex.
La serialització converteix cada fila de la taula en una cadena de llenguatge natural amb noms de característiques i valors. Per a les columnes amb valors de text, la NLL es normalitza per columna per evitar el biaix de longitud, on les descripcions més llargues acumularien altrament costos de probabilitat més elevats de manera mecànica. Per a les columnes numèriques i categòriques, la NLL bruta a nivell de tòquen se suma a tot el camp. El model s'ajusta en un entorn semisupervisat —només les files etiquetades com a normals entren en l'entrenament— durant un màxim de 2.000 passos utilitzant entrenament GPU distribuït.
Idees clau
- El problema del format de sortida: els enfocaments previs de predicció d'índexs requereixen que els LLM basin la seva sortida en índexs de files anòmales d'un lot de manera fiable. Els models de la família Llama sovint emparellen índexs incorrectes amb valors, generen índexs més enllà de la mida del lot o simplement llisten tot com a anòmal. La NLL evita això completament.
- AnoLLM aconsegueix el millor rendiment en sis conjunts de dades de referència amb tipus de característiques mixtes, incloent-hi la detecció de frau en assegurances de vehicles i conjunts de dades de frau en comerç electrònic de Kaggle.
- En els 30 conjunts de dades del benchmark ODDS, predominantment numèrics, AnoLLM funciona al mateix nivell que els millors referents clàssics —no és clarament millor, només competitiu.
- La normalització de la NLL per columna per a les característiques de text és una decisió d'enginyeria petita però fonamental: sense ella, una descripció de transacció amb trenta tòquens dominaria la puntuació sobre un import de dues xifres, cosa que suposaria un biaix inductiu incorrecte.
- El context de la línia base d'entrenament: l'enfocament zero-shot de GPT-4 (arXiv:2406.16308) aconsegueix un AUROC mitjà de 74,1 a l'ODDS, comparable a ECOD (75,5) i KNN (70,7). L'avantatge d'AnoLLM es mostra específicament en conjunts de dades on les característiques de text i categòriques porten un senyal d'anomalia significatiu.