Salta al contingut principal

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Les tres entrades anteriors d'aquest fil cobrien AnoLLM, CausalTAD i AD-LLM — cadascuna d'elles centrada específicament en la detecció d'anomalies tabulars. Aquesta enquesta de Ruiyao Xu i Kaize Ding, acceptada a NAACL 2025 Findings, se suposa que ha d'unir aquests fils en un mapa unificat del panorama. Esperava una taxonomia que clarifiqués l'espai de disseny; el que he obtingut és principalment una enquesta sobre la detecció d'anomalies en imatges i vídeos amb una fina capa de generalitat.

L'article

2026-07-03-llm-anomaly-ood-detection-survey

L'enquesta de Xu i Ding (arXiv:2409.01980) proposa organitzar la detecció d'anomalies i de dades fora de la distribució (OOD) basada en LLM en dues classes d'alt nivell: LLM per a la detecció, on el model identifica directament les anomalies, i LLM per a la generació, on el model augmenta les dades d'entrenament o produeix explicacions en llenguatge natural que alimenten un detector posterior. Cada classe se subdivideix encara més. La detecció es divideix en mètodes basats en prompts (LLM congelats o ajustats consultats amb prompts en llenguatge natural) i mètodes basats en el contrast (models de la família CLIP que puntuen el caràcter anòmal comparant pegats d'imatge amb descripcions de text). La generació es divideix en mètodes centrats en l'augment (generació d'etiquetes pseudo-OOD o mostres sintètiques minoritàries) i mètodes centrats en l'explicació (producció de raonaments en llenguatge natural per als esdeveniments marcats).

La llista de lectura de GitHub que l'acompanya cobreix aproximadament 39 articles: 24 de detecció, 10 d'augment i 5 d'explicació.

Idees clau

  • Els mètodes basats en el contrast dominen la detecció d'anomalies en imatges. WinCLIP assoleix un 91,8% i un 85,1% d'AUROC en la classificació d'anomalies zero-shot i la segmentació a MVTec-AD sense cap ajust específic per al conjunt de dades, cosa que és competitiva amb els mètodes supervisats entrenats en aquest conjunt de dades.
  • Els LLM congelats topen amb una bretxa de modalitat per a dades que no són text. L'enquesta assenyala explícitament que "l'ús directe de prompts en LLM congelats per a resultats de detecció d'anomalies o OOD en diversos tipus de dades sovint dóna un rendiment subòptim a causa de la bretxa de modalitat inherent entre el text i altres modalitats de dades".
  • L'ajust amb LoRA i adaptadors recupera gran part d'aquesta bretxa. Mètodes com AnomalyGPT i AnomalyCLIP fan un ajust fi amb tècniques eficients en paràmetres i superen substancialment els seus homòlegs congelats.
  • La generació com a augment està poc utilitzada. Les etiquetes pseudo-OOD a nivell de subtítol generades per BLIP-2 superen les alternatives a nivell de paraula i de descripció en la detecció OOD, la qual cosa suggereix que una supervisió de text més rica és important fins i tot per a tasques visuals.
  • La generació centrada en l'explicació és la subcategoria més recent. Sistemes com Holmes-VAD i VAD-LLaMA van més enllà de les marques binàries per generar raonaments en llenguatge natural per als esdeveniments anòmals, principalment en vídeos de vigilància.
  • Les dades tabulars són gairebé absents. L'enquesta cita un mètode — "Tabular" de Li et al. (2024) — que converteix files tabulars en prompts de text i fa un ajust fi amb LoRA, però no proporciona xifres comparatives.

El que es manté — i el que no

La taxonomia de dues classes és realment neta i probablement la faré servir per organitzar el meu propi pensament. La distinció detecció-vs-generació capta una bifurcació arquitectònica real: o demanes a l'LLM que classifiqui directament o l'utilitzes per construir un millor senyal d'entrenament per a un detector tradicional.

El que no puc acceptar és l'enfocament de l'article com una enquesta sobre la detecció d'anomalies en general. La cobertura es concentra aclaparadorament en imatges de defectes industrials (MVTec-AD, VisA) i vídeos de vigilància (UCF-Crime, XD-Violence). Dels aproximadament 39 articles catalogats, gairebé cap aborda dades tabulars o financeres. Les sèries temporals reben unes quantes citacions. El format tabular rep una sola frase. Això no és un mapa del panorama per a Bean Labs — és un mapa per a investigadors de visió per computador que volen utilitzar CLIP per a la detecció de defectes.

Els autors reconeixen que "les restriccions d'espai impedeixen resums mètrics detallats", que és una manera educada de dir que no hi ha taules comparatives. Per a un article d'enquesta, l'absència de síntesi quantitativa és una llacuna significativa. Els lectors no poden utilitzar aquest article per decidir quin paradigma és millor per al seu cas d'ús sense rastrejar individualment cada article citat.

El repte de les al·lucinacions apareix com un problema obert, però el tractament és superficial — esmenta el risc sense analitzar quins paradigmes de detecció són més o menys susceptibles, o com la generació centrada en l'explicació podria fer que les al·lucinacions fossin més detectables mitjançant la revisió humana.

Per què això és important per a la IA financera

Dues subcategories són rellevants malgrat la cobertura centrada en la imatge. Primer, la subcategoria de generació centrada en l'explicació és exactament el que necessiten els agents d'auditoria de Beancount: no només una marca que indiqui que un assentament del diari és anòmal, sinó una frase en llenguatge natural que expliqui per què. Els auditors financers no poden actuar sobre un resultat binari. Segon, el silenci gairebé total de l'enquesta sobre la detecció d'anomalies tabulars és informatiu per si mateix — confirma que el fil d'AnoLLM, CausalTAD i AD-LLM que he estat seguint és una àrea de frontera i no una de ben trepitjada, i que el disseny d'eines d'auditoria basades en LLM per als llibres majors de Beancount requereix sintetitzar coneixements de la detecció d'anomalies en visió que encara no s'han portat als entorns tabulars.

L'equilibri entre prompts i ajust és la troballa més aplicable: els prompts zero-shot funcionen com una primera aproximació però pateixen la bretxa de modalitat; l'ajust fi basat en LoRA sobre exemples etiquetats representatius tanca la bretxa. Per a un desplegament de Beancount amb exemples d'anomalies etiquetats de llibres històrics, la via de l'ajust fi sembla més fiable que el simple ús de prompts.

Què llegir a continuació

  • "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — utilitza incrustacions de sentence-transformers d'LLM en assentaments reals del llibre diari; un pont directe des del marc d'aquesta enquesta cap al cas d'ús tabular de Beancount.
  • "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — canalització multi-agent per a la detecció d'anomalies en dades de mercat; el patró de coordinació multi-agent es podria traslladar a l'auditoria de llibres majors.
  • AnomalyGPT (arXiv:2308.15366) — LVLM ajustat per a la detecció d'anomalies industrials amb localització a nivell de píxel; llegir això clarifica què significa realment arquitectònicament "l'ajust d'LLM per a la detecció", que l'enquesta descriu però no explica.