AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres
L'article sobre detecció d'anomalies amb LLM zero-shot que vaig llegir fa dos dies (arXiv:2406.16308) mostrava que GPT-4 podia identificar valors atípics tabulars sense cap entrenament, igualant referents clàssics com ECOD en el benchmark ODDS. Però tenia una feblesa òbvia: demanar al model que generés una llista d'índexs de files anòmales és fràgil — els models de codi obert sovint al·lucinen índexs, surten dels límits o marquen cada fila com a sospitosa. AnoLLM, publicat a l'ICLR 2025 per Che-Ping Tsai, Ganyu Teng, Phillip Wallis i Wei Ding d'Amazon, soluciona aquesta fragilitat alhora que avança en conjunts de dades de tipus mixt on els referents purament numèrics comencen a tenir dificultats.
L'article
AnoLLM reformula la detecció d'anomalies tabulars com una estimació de densitat del model de llenguatge en lloc d'una classificació mitjançant prompts. En lloc de demanar a l'LLM que identifiqui quines files semblen sospitoses, els autors realitzen un ajust finit (fine-tuning) d'un model de llenguatge preentrenat amb files d'entrenament serialitzades de la distribució normal, i després puntuen cada fila de prova mitjançant la seva log-versemblança negativa (NLL) sota la distribució apresa. Una fila que no s'assembla en res a la distribució d'entrenament obté una NLL alta — aquesta és la puntuació d'anomalia. Sense formats d'índexs, sense anàlisi de sortida, sense extraccions fràgils per regex.
La serialització converteix cada fila de la taula en una cadena de llenguatge natural amb noms de característiques i valors. Per a les columnes amb valors de text, la NLL es normalitza per columna per evitar el biaix de longitud, on les descripcions més llargues acumularien altrament costos de probabilitat més elevats de manera mecànica. Per a les columnes numèriques i categòriques, la NLL bruta a nivell de tòquen se suma a tot el camp. El model s'ajusta en un entorn semisupervisat —només les files etiquetades com a normals entren en l'entrenament— durant un màxim de 2.000 passos utilitzant entrenament GPU distribuït.
Idees clau
- El problema del format de sortida: els enfocaments previs de predicció d'índexs requereixen que els LLM basin la seva sortida en índexs de files anòmales d'un lot de manera fiable. Els models de la família Llama sovint emparellen índexs incorrectes amb valors, generen índexs més enllà de la mida del lot o simplement llisten tot com a anòmal. La NLL evita això completament.
- AnoLLM aconsegueix el millor rendiment en sis conjunts de dades de referència amb tipus de característiques mixtes, incloent-hi la detecció de frau en assegurances de vehicles i conjunts de dades de frau en comerç electrònic de Kaggle.
- En els 30 conjunts de dades del benchmark ODDS, predominantment numèrics, AnoLLM funciona al mateix nivell que els millors referents clàssics —no és clarament millor, només competitiu.
- La normalització de la NLL per columna per a les característiques de text és una decisió d'enginyeria petita però fonamental: sense ella, una descripció de transacció amb trenta tòquens dominaria la puntuació sobre un import de dues xifres, cosa que suposaria un biaix inductiu incorrecte.
- El context de la línia base d'entrenament: l'enfocament zero-shot de GPT-4 (arXiv:2406.16308) aconsegueix un AUROC mitjà de 74,1 a l'ODDS, comparable a ECOD (75,5) i KNN (70,7). L'avantatge d'AnoLLM es mostra específicament en conjunts de dades on les característiques de text i categòriques porten un senyal d'anomalia significatiu.
Què se sosté — i què no
La idea central de la NLL és sòlida. Utilitzar un model de llenguatge ajustat com a estimador de densitat sobre files serialitzades és coherent, i gestiona de forma natural la distribució conjunta de totes les columnes simultàniament —cosa que els detectors no supervisats clàssics aplicats columna per columna no poden fer amb claredat. La solució a la predicció d'índexs és realment útil i la comparació amb la línia base zero-shot és justa.
El que em preocupa és la bretxa cost-benefici que l'article no reporta prou. AnoLLM requereix ajustar i servir un LLM per a la inferència —un compromís d'infraestructura substancial en comparació amb l'execució d'ECOD o IsolationForest en una CPU en segons. Al benchmark ODDS (purament numèric), AnoLLM només està "al mateix nivell", no és millor. Per tant, l'argument a favor d'AnoLLM es troba totalment en el règim de tipus mixt, on els sis conjunts de dades avaluats provenen de la detecció de frau a Kaggle. Sis conjunts de dades és una base empírica prima per a una recomanació forta, especialment perquè els conjunts de dades de Kaggle solen tenir esquemes nets, semàntica de columnes fixada i una veritat absoluta coneguda —totes coses de les quals les dades dels llibres majors de producció sovint manquen.
El problema de l'ordre de les columnes també queda obert. CausalTAD (arXiv:2602.07798) va identificar immediatament aquesta mancança: AnoLLM serialitza les columnes en un ordre arbitrari, ignorant les relacions causals entre els camps. Per a dades estructurades amb cadenes causals conegudes —el tipus de compte influeix en els rangs de transacció vàlids, que influeixen en la contrapart esperada— aquesta és una limitació real. CausalTAD planteja la reordenació com un problema d'ordenació lineal i reporta una millora constant respecte a AnoLLM en més de 30 conjunts de dades. Que aquesta bretxa existís i fos detectable tan ràpidament suggereix que el disseny de serialització d'AnoLLM no estava del tot madurat.
També hi ha una qüestió d'escala que l'article no aborda: amb quin volum d'exemples d'entrenament normals val la pena ajustar un LLM en lloc de, per exemple, un model de deep learning tabular entrenat directament sobre les característiques numèriques? Per a llibres majors de Beancount personals amb uns pocs milers d'entrades, el cost de computació pot superar fàcilment qualsevol guany en precisió.
Per què això és important per a la IA financera
Les entrades del llibre major de Beancount són exactament el tipus de dades de tipus mixt al qual s'adreça AnoLLM: imports (numèrics), noms de comptes (text estructurat), beneficiari/narració (text lliure), etiquetes (categòriques), dates (estructurades). Una sola fila com 2024-03-15 * "AWS" "Factura al núvol" Assets:Checking -2.400 USD codifica informació a través de tots aquests tipus simultàniament. Els detectors d'anomalies clàssics tenen dificultats aquí perquè necessiten un tractament separat per a cada tipus de columna, i perden les correlacions entre elles —el patró conjunt que indica que les factures d'"AWS" haurien d'estar en un rang determinat i afectar un compte específic.
L'enfocament NLL d'AnoLLM, en principi, aprendria aquests patrons conjunts a partir d'entrades històriques normals i marcaria desviacions en qualsevol combinació de columnes. Això és potencialment més útil que les proves estadístiques d'una sola columna o les regles fixes.
Dit això, la restricció de la comptabilitat de partida doble és un coneixement estructural que AnoLLM no pot aprendre només de les files serialitzades —els dèbits han de ser iguals als crèdits, s'han de respectar les jerarquies de comptes. Aquests invariants de domini són restriccions dures, no regularitats estadístiques, i cap quantitat d'ajust finit d'LLM en files històriques els farà complir de manera fiable si les dades d'entrenament contenen excepcions o artefactes d'arrodoniment. L'arquitectura adequada probablement combina la puntuació NLL d'AnoLLM per a anomalies semàntiques amb comprovacions de regles explícites per a les estructurals.
Què llegir a continuació
- CausalTAD (arXiv:2602.07798) — millora directament AnoLLM injectant un ordre causal de les columnes; el seguiment més immediat per avaluar.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — proporciona l'avaluació sistemàtica multiparadigma que manca en els articles de mètodes individuals.
- "Language Models are Realistic Tabular Data Generators" (Borisov et al., arXiv:2210.06280, ICLR 2023) — el model BE-GREAT que AnoLLM utilitza com a línia base; entendre'l aclareix què millora realment AnoLLM més enllà de la predicció d'índexs.
