Detecció d'anomalies Zero-Shot amb LLMs: Com es comporta GPT-4 amb dades tabulars
L'article sobre AuditCopilot que vaig llegir el mes passat va avaluar els LLM en la detecció de frau en assentaments comptables mitjançant l'ajustament fi (fine-tuning) amb dades d'anomalies etiquetades. Des de llavors, he tingut curiositat per saber si la indicació (prompting) zero-shot podria portar-nos gairebé al mateix lloc: sense necessitat d'anomalies etiquetades ni d'ajustament fi específic del domini. Aquesta és exactament la promesa de "Anomaly Detection of Tabular Data Using LLMs" de Li, Zhao, Qiu, Kloft, Smyth, Rudolph i Mandt (arXiv:2406.16308), un article de taller de mitjans de 2024. El resultat principal —GPT-4 igualant mètodes transductius clàssics com ECOD— sonava gairebé massa bé, així que el vaig llegir amb atenció.
L'article
La idea central és el que els autors anomenen detecció d'anomalies "a nivell de lot" (batch-level). En lloc d'ajustar un model amb dades d'entrenament i després puntuar els punts de prova individualment, es presenta al LLM un lot de N files en el moment de la inferència i se li demana que identifiqui quines files són anòmales en relació amb les altres del mateix lot. Les anomalies són escasses en qualsevol lot, de manera que un model prou capaç hauria de reconèixer implícitament el patró majoritari i marcar els valors atípics (outliers). Sense reentrenament, sense exemples etiquetats: només el coneixement del món preentrenat del LLM i el seu raonament en context.
Avaluen el model amb el benchmark ODDS de 32 conjunts de dades, una col·lecció estàndard de problemes de detecció d'anomalies tabulars del món real. A causa dels límits de la finestra de context, limiten cada lot d'avaluació a 150 files i 10 columnes. Les característiques es serialitzen dimensió a dimensió amb la plantilla "Data i is x_i." i es demana al LLM que anomeni els índexs anòmals de cada dimensió per separat; la puntuació final d'anomalia d'una fila agrega quantes dimensions la van marcar.
Per als models propietaris, fan proves zero-shot. Per als models de codi obert (Llama2-7B, Llama2-70B, Mistral-7B), el rendiment zero-shot és pobre, de manera que també proposen un ajustament fi (fine-tuning) en un conjunt de dades sintètic de 5.000 lots generats a partir de barreges gaussianes i distribucions categòriques —sense necessitat d'etiquetes d'anomalies reals. Les variants ajustades s'anomenen Llama2-AD i Mistral-AD.
Idees clau
- GPT-4 zero-shot aconsegueix una mitjana de 74,1 AUROC en els 32 conjunts de dades ODDS, en comparació amb el 75,5 d'ECOD (la millor línia base clàssica) i el 70,7 de KNN. GPT-3.5 es queda en el 68,3.
- Llama2-7B zero-shot només obté un 51,1 —essencialment aleatori— però l'ajustament fi amb dades sintètiques el puja fins a 60,0, un guany de +8,9 punts. Mistral-7B millora de 62,4 a 69,1 (+6,7 punts).
- L'enfocament "a nivell de lot" és el moviment conceptual interessant: el LLM actua com un estimador de densitat implícit sobre el lot, en lloc d'un discriminador entrenat per separar classes.
- L'ajustament fi utilitza LoRA només en dades sintètiques gaussianes i categòriques —no calen anotacions d'anomalies reals. Aquest és un avantatge pràctic significatiu si es generalitza.
- L'anàlisi de la sortida (parsing) és fràgil per als models de codi obert; els autors imposen restriccions gramaticals i utilitzen patrons regex per extreure els índexs d'anomalia.
Què s'aguanta — i què no
La cobertura del benchmark és el problema més gran. L'article només es compara amb dues línies base clàssiques: KNN i ECOD. Isolation Forest, LOF, One-Class SVM i qualsevol mètode de detecció d'anomalies d'aprenentatge profund estan completament absents. ECOD resulta ser una línia base forta a ODDS, però GPT-4 no el supera clarament (74,1 vs 75,5), i Mistral-AD tampoc (69,1). Davant d'un conjunt més ampli de línies base, no és obvi que GPT-4 mantingués la seva posició.
El límit de 150 files / 10 columnes també és una restricció seriosa que l'article no aborda adequadament. Els llibres majors comptables reals tenen milers de transaccions i moltes més característiques. No s'ha provat si l'enfocament a nivell de lot escala, o si es degrada perquè les anomalies es tornen més difícils de distingir en lots més grans amb patrons més diversos.
Les xifres de variància són preocupants. GPT-3.5 al conjunt de dades breastw obté un 63,1 ± 34,4 AUROC. Aquest no és un mètode que puguis desplegar quan una sola execució pot puntuar plausiblement des de 30 fins a 98. GPT-4 és més constant (98,7 ± 0,5 a breastw) però mostra una variància similar en altres conjunts de dades.
El supòsit d'independència de les característiques és un altre forat. El LLM consulta cada dimensió de característica per separat i agrega les puntuacions. No pot raonar sobre patrons de característiques conjunts: una transacció amb una combinació inusual d'import, contrapartida i codi de compte podria semblar normal en qualsevol dimensió individual. Les anomalies multidimensionals, que són possiblement les més comunes i econòmicament significatives en comptabilitat, no es detectaran amb aquest enfocament sense un redissenyo important.
La literatura posterior confirma aquestes preocupacions. AnoLLM (ICLR 2025) d'Amazon Science adopta un enfocament diferent: en lloc de demanar índexs d'anomalia, ajusta un LLM per modelar la distribució de dades i utilitza el logaritme negatiu de la versemblança (negative log-likelihood) com a puntuació d'anomalia, evitant completament el fràgil règim d'anàlisi de sortida. CausalTAD (arXiv:2602.07798, febrer de 2026) identifica un altre buit compartit per aquest article i AnoLLM: l'ordre de les columnes durant la serialització és aleatori, ignorant les relacions causals entre característiques. Reordenar les columnes per respectar l'estructura causal millora l'AUC-ROC mitjà d'aproximadament 0,80 a 0,83 en sis benchmarks.
Per què això és important per a la IA financera
Malgrat les seves limitacions, la direcció zero-shot és realment interessant per a la detecció d'anomalies en llibres majors de Beancount. L'article d'AuditCopilot requeria un ajustament fi amb exemples d'anomalies etiquetades, cosa difícil d'obtenir a la pràctica perquè els casos de frau reals són rars, sensibles i etiquetar-los requereix comptables experts. L'enfocament d'ajustament fi sintètic de l'article (Llama2-AD, Mistral-AD) esquiva això: generes lots de transaccions d'aspecte realista amb anomalies artificials i fas l'ajustament sense tocar mai un llibre major real.
El mecanisme a nivell de lot s'ajusta naturalment a com pensen realment els comptables: "en les transaccions d'aquest mes, quins assentaments semblen inusuals en relació amb la resta?". Aquesta és la intuïció darrere de la prova d'assentaments comptables en auditoria. El repte és que les anomalies reals dels llibres majors són multidimensionals: un pagament que és normal en import però inusual en temporització, contrapartida i combinació de codi de compte. Consultar cada característica de manera independent, com fa aquest article, no les detectarà.
El que voldria veure és una versió d'aquest enfocament on la fila completa s'incrusti (embed) i es puntuï de manera holística —més proper al que fa AnoLLM amb el modelatge de la distribució— aplicat a una mostra realista de dades de transaccions de Beancount. La idea de l'ajustament fi sintètic mereix una exploració seriosa; generar lots de llibres majors Beancount sintètics amb anomalies injectades (comptes erronis, assentaments duplicats, imports inversemblants) és senzill, i ajustar un model de 7B amb aquests podria produir un auditor zero-shot útil sense requerir cap dada real etiquetada.
Què llegir a continuació
- AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; l'extensió més directa d'aquest treball, utilitzant puntuació basada en la versemblança en lloc de predicció d'índexs mitjançant prompts.
- CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; aborda el buit de l'ordre de les columnes alineant la serialització amb l'estructura causal.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; un benchmark més ampli que cobreix tasques de detecció d'anomalies en NLP, útil per entendre on els LLM ja són fiables o no com a detectors d'anomalies.
