LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking
De voorgaande drie bijdragen in deze thread behandelden AnoLLM, CausalTAD en AD-LLM — elk specifiek gericht op tabelvormige anomaliedetectie. Dit overzicht door Ruiyao Xu and Kaize Ding, geaccepteerd voor NAACL 2025 Findings, zou deze draden moeten samenbrengen in een verenigde landschapskaart. Ik verwachtte een taxonomie die de ontwerpspace zou verduidelijken; wat ik kreeg was voornamelijk een overzicht van beeld- en video-anomaliedetectie met een dun vernisje van algemeenheid.
Het artikel
Het overzicht van Xu en Ding (arXiv:2409.01980) stelt voor om LLM-gebaseerde anomalie- en out-of-distribution (OOD) detectie te organiseren in twee hoofdklassen: LLM's voor Detectie, waarbij het model direct anomalieën identificeert, en LLM's voor Generatie, waarbij het model trainingsgegevens aanvult of verklaringen in natuurlijke taal produceert die een stroomafwaartse detector voeden. Elke klasse wordt verder onderverdeeld. Detectie splitst zich in op prompting gebaseerde methoden (bevroren of getunede LLM's die worden bevraagd met prompts in natuurlijke taal) en op contrast gebaseerde methoden (modellen uit de CLIP-familie die abnormaliteit scoren door beeldfragmenten te vergelijken met tekstbeschrijvingen). Generatie splitst zich in op augmentatie gerichte methoden (het genereren van pseudo-OOD-labels of synthetische minderheidssteekproeven) en op verklaring gerichte methoden (het produceren van rationele onderbouwingen in natuurlijke taal voor gemarkeerde gebeurtenissen).
De bijbehorende GitHub-leeslijst bevat ongeveer 39 artikelen: 24 over detectie, 10 over augmentatie en 5 over verklaring.
Belangrijkste ideeën
- Op contrast gebaseerde methoden domineren beeldanomaliedetectie. WinCLIP behaalt 91,8% en 85,1% AUROC op zero-shot anomalieclassificatie en segmentatie op MVTec-AD zonder enige datasetspecifieke afstemming, wat concurrerend is met gesuperviseerde methoden die op die dataset zijn getraind.
- Bevroren LLM's stuiten op een modaliteitskloof bij niet-tekstuele gegevens. Het overzicht merkt expliciet op dat "het direct prompten van bevroren LLM's voor anomalie- of OOD-detectieresultaten over verschillende gegevenstypen vaak suboptimale prestaties oplevert vanwege de inherente modaliteitskloof tussen tekst en andere gegevensmodaliteiten."
- LoRA en adapter-tuning herstellen een groot deel van die kloof. Methoden zoals AnomalyGPT en AnomalyCLIP finetunen met parameterefficiënte technieken en presteren aanzienlijk beter dan hun bevroren tegenhangers.
- Generatie als augmentatie wordt onderbenut. Door BLIP-2 gegenereerde pseudo-OOD-labels op bijschriftniveau presteren beter dan alternatieven op woordniveau en beschrijvingsniveau bij OOD-detectie, wat suggereert dat rijkere tekstsupervisie belangrijk is, zelfs voor visuele taken.
- Verklaringsgerichte generatie is de nieuwste subcategorie. Systemen zoals Holmes-VAD en VAD-LLaMA gaan verder dan binaire vlaggen om onderbouwingen in natuurlijke taal te genereren voor afwijkende gebeurtenissen, voornamelijk in bewakingsvideo's.
- Tabelvormige gegevens zijn bijna afwezig. Het overzicht citeert één methode — "Tabular" door Li et al. (2024) — die tabelrijen omzet in tekstprompts en finetunet met LoRA, maar biedt geen vergelijkende cijfers.
Wat standhoudt — en wat niet
De tweeklasse-taxonomie is oprecht helder en ik zal deze waarschijnlijk gebruiken om mijn eigen denken te structureren. Het onderscheid tussen detectie en generatie legt een reële architecturale splitsing vast: ofwel vraag je de LLM om direct te classificeren, ofwel gebruik je het om een beter trainingssignaal op te bouwen voor een traditionele detector.
Wat ik niet kan accepteren is de presentatie van het artikel als een breed overzicht van anomaliedetectie. De dekking is overweldigend geconcentreerd op industriële defectbeelden (MVTec-AD, VisA) en bewakingsvideo's (UCF-Crime, XD-Violence). Van de ongeveer 39 gecatalogiseerde artikelen behandelen bijna geen enkele tabelvormige of financiële gegevens. Tijdreeksen krijgen een paar citaten. Tabelvormige gegevens krijgen één zin. Dit is geen landschapskaart voor Bean Labs — het is een landschapskaart voor computer vision-onderzoekers die CLIP willen gebruiken voor defectdetectie.
De auteurs erkennen dat "ruimtegebrek gedetailleerde metrische samenvattingen verhindert", wat een beleefde manier is om te zeggen dat er geen vergelijkingstabellen zijn. Voor een overzichtsartikel is de afwezigheid van kwantitatieve synthese een aanzienlijk gemis. Lezers kunnen dit artikel niet gebruiken om te beslissen welk paradigma beter is voor hun use case zonder elk geciteerd artikel afzonderlijk op te zoeken.
De hallucinatie-uitdaging wordt vermeld als een open probleem, maar de behandeling is oppervlakkig — het benoemt het risico zonder te analyseren welke detectieparadigma's meer of minder vatbaar zijn, of hoe verklaringsgerichte generatie hallucinaties detecteerbaarder zou kunnen maken door menselijke beoordeling.
Waarom dit belangrijk is voor financiële AI
Twee subcategorieën zijn relevant ondanks de focus op beelden. Ten eerste is de subcategorie verklaringsgerichte generatie precies wat Beancount-audit-agents nodig hebben: niet alleen een melding dat een journaalpost afwijkend is, maar een zin in natuurlijke taal die uitlegt waarom. Financiële auditors kunnen niet handelen op basis van een binaire output. Ten tweede is de bijna volledige stilte van het overzicht over tabelvormige anomaliedetectie op zichzelf informatief — het bevestigt dat de AnoLLM, CausalTAD en AD-LLM-lijn die ik heb gevolgd een grensgebied is in plaats van een platgetreden pad, en dat het ontwerpen van LLM-gebaseerde audit-tools voor Beancount-grootboeken het synthetiseren van inzichten uit visie-anomaliedetectie vereist die nog niet zijn overgebracht naar tabelvormige omgevingen.
De afweging tussen prompting en tuning is de meest actiegerichte bevinding: zero-shot prompting werkt als eerste benadering, maar lijdt onder de modaliteitskloof; op LoRA gebaseerde finetuning op representatieve gelabelde voorbeelden dicht de kloof. Voor een Beancount-implementatie met gelabelde anomalievoorbeelden uit historische grootboeken lijkt het pad van finetuning betrouwbaarder dan pure prompting.
Wat nu te lezen
- "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — gebruikt LLM sentence-transformer embeddings op echte journaalposten in het grootboek; een directe brug van het raamwerk van dit overzicht naar de Beancount-tabelvormige use case.
- "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — multi-agent pijplijn voor anomaliedetectie in marktgegevens; het multi-agent coördinatiepatroon kan worden overgedragen naar grootboekaudits.
- AnomalyGPT (arXiv:2308.15366) — gefinetuned LVLM voor industriële anomaliedetectie met lokalisatie op pixelniveau; het lezen hiervan verduidelijkt wat "LLM tuning voor detectie" architecturaal werkelijk betekent, wat het overzicht wel beschrijft maar niet uitlegt.
