Salta al contingut principal

Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Les dues últimes entrades d'aquesta sèrie han tractat AnoLLM i CausalTAD —enfocaments d'ajustament (fine-tuning) i d'enginyeria d'instruccions per a la detecció d'anomalies tabulars. Abans d'implementar qualsevol dels dos a escala de producció, cal saber on es troben realment els LLM en un ventall més ampli de paradigmes de detecció d'anomalies. Aquest és l'objectiu explícit d'AD-LLM, que avalua els LLM en tres rols diferents: detector zero-shot, motor d'augment de dades i assessor de selecció de models. L'enfocament són les dades de text de PNL en comptes d'assentaments tabulars del llibre major, però les lliçons metodològiques són transferibles.

L'article

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Tiankai Yang, Yi Nian i els seus col·legues de la USC i Texas A&M presenten AD-LLM (arXiv:2412.11142, ACL Findings 2025), el primer benchmark per avaluar sistemàticament els LLM en tres paradigmes de detecció d'anomalies en conjunts de dades de PNL. L'entorn és la classificació d'una sola classe (one-class classification): les dades d'entrenament només contenen mostres normals, i el model ha de marcar les anomalies en el moment de la prova. Els cinc conjunts de dades —AG News, BBC News, IMDB Reviews, N24 News i SMS Spam— deriven tots de tasques de classificació de text amb una categoria designada com a anòmala. L'article posa a prova dos LLM, GPT-4o i Llama 3.1 8B Instruct, contra 18 referències (baselines) no supervisades tradicionals que inclouen mètodes extrem a extrem (CVDD, DATE) i combinacions de dos passos d'incrustació més detector (incrustacions d'OpenAI + LUNAR, LOF, Isolation Forest, etc.).

Idees clau

  • La detecció zero-shot funciona bé per al text. GPT-4o obté un AUROC d'entre 0,9293 i 0,9919 en els cinc conjunts de dades en la configuració Normal+Anomalia; Llama 3.1 arriba a 0,8612–0,9487. La millor referència tradicional, OpenAI + LUNAR, obté uns 0,92 a AG News; GPT-4o l'iguala o el supera sense cap entrenament.
  • L'augment sintètic ajuda, de manera constant però modesta. Les mostres sintètiques generades per LLM milloren el flux de treball OpenAI + LUNAR en els cinc conjunts de dades. L'augment de la descripció de les categories també millora la majoria de les referències, tot i que els guanys són desiguals: Llama 3.1 millora l'AUROC en +0,07 a IMDB Reviews, però els resultats en altres llocs són més petits.
  • La selecció de models és el punt feble. GPT-o1-preview recomana models que superen el rendiment mitjà de les referències en la majoria de conjunts de dades i, ocasionalment, s'apropa al millor mètodes (p. ex., a IMDB Reviews i SMS Spam). Però mai identifica amb fiabilitat el millor mètode, i els autors reconeixen que les recomanacions es basen en entrades simplistes que no tenen estadístiques específiques del conjunt de dades.
  • La bretxa entre codi obert i propietari és real. L'avantatge d'AUROC de GPT-4o sobre Llama 3.1 8B és d'entre 4 i 13 punts depenent del conjunt de dades, una bretxa consistent amb el patró vist en articles de detecció d'anomalies tabulars zero-shot.
  • La detecció d'anomalies en PNL encara no té un benchmark definitiu. Cinc conjunts de dades, tots derivats de corpus de classificació, és poc. L'article complementari NLP-ADBench (EMNLP Findings 2025) amplia a vuit conjunts de dades i 19 algorismes, però continua utilitzant la mateixa construcció de categoria semàntica com a anomalia que fa que aquestes tasques siguin una mica artificials.

Què se sosté — i què no

Les troballes sobre zero-shot són creïbles. Utilitzar els LLM com a avaluadors sense ajustar-los amb dades d'anomalies etiquetades és realment útil quan la classe anòmala és semànticament coherent: un missatge de correu brossa (spam) difereix d'un missatge legítim (ham) de maneres que un model de llenguatge ben entrenat entén. Les xifres d'AUROC són altes, i la comparació amb referències sòlides basades en incrustacions d'OpenAI és justa.

L'abast, però, és limitat d'una manera que l'article no destaca prou. Els cinc conjunts de dades codifiquen les anomalies com una categoria temàtica diferent —spam contra SMS legítim, notícies d'un editor exclòs contra mitjans dins de la distribució. Això significa que el LLM està fent essencialment una classificació de temes, una tasca per a la qual ha estat explícitament pre-entrenat. El benchmark no inclou anomalies semàntiques dins d'una mateixa categoria (p. ex., transaccions inusuals dins del mateix tipus de compte), que és precisament el tipus d'anomalia que importa per a l'auditoria financera.

Les tasques d'augment de dades i selecció de models s'avaluen en els mateixos cinc conjunts de dades, de manera que l'article acaba avaluant si els LLM poden millorar marginalment diferents variants del mateix problema estret. Els autors llisten obertament sis limitacions —incloent-hi que només proven un subconjunt de LLM, exclouen els règims de pocs exemples (few-shot) i d'ajustament, i confien en entrades simplistes per a la selecció de models—, la qual cosa és intel·lectualment honesta però també assenyala com de preliminar és aquest benchmark.

Un resultat que val la pena destacar per als escèptics: les puntuacions AUPRC són substancialment més baixes que l'AUROC per a ambdós models. Llama 3.1 a BBC News arriba a un AUROC de 0,8612 però només a un AUPRC de 0,3960, reflectint el desequilibri de classes en la configuració d'una sola classe. En contextos d'auditoria d'alta precisió, l'AUPRC és la mètrica més significativa, i aquí la imatge és menys favorable.

Per què això és important per a la IA financera

L'agenda de Bean Labs inclou dos casos d'ús de detecció d'anomalies: detectar assentaments inusuals al llibre major en temps real (tabular, estructurat) i marcar text narratiu sospitós en factures, notes o tiquets de suport (PNL no estructurat). AD-LLM parla directament del segon cas i ens dóna un sostre realista: GPT-4o pot detectar anomalies a nivell de tema en text en mode zero-shot amb un AUROC superior a 0,93 en conjunts de dades nets i equilibrats. Aquesta és una referència útil, però les anomalies en les descripcions del llibre major són més subtils: una nota de factura que descriu un servei rutinari però que pertany a un proveïdor marcat per patrons sospitosos no és un problema de classificació de temes. El benchmark proporciona un punt de partida, no una resposta.

La troballa sobre la selecció de models és interessant per si mateixa per al disseny de sistemes. El somni de preguntar a un LLM "quin detector d'anomalies hauria d'utilitzar en aquest conjunt de dades?" i obtenir una resposta fiable encara no s'ha complert. Això significa que triar entre l'ajustament estil AnoLLM, la inducció causal estil CausalTAD o un mètode d'incrustació clàssic encara requereix el judici humà o una avaluació empírica sistemàtica; no es pot delegar a un assessor LLM.

Què llegir a continuació

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — el benchmark complementari del mateix grup, que cobreix vuit conjunts de dades i 19 algorismes; proporciona el context de referència clàssic més ampli que l'abast de cinc conjunts de dades d'AD-LLM no pot oferir.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — analitza tot el panorama dels enfocaments de detecció d'anomalies basats en LLM en modalitats de text, imatge i tabulars; situa AD-LLM en relació amb els treballs previs.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — l'equivalent tabular; comparar el seu enfocament basat en la versemblança amb l'estratègia zero-shot basada en instruccions d'AD-LLM aclareix quin paradigma és més adequat per als assentaments del llibre major de Beancount.