Doorgaan naar hoofdinhoud

AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

De laatste twee bijdragen in deze serie behandelden AnoLLM en CausalTAD — respectievelijk gefinetunede en via prompting aangestuurde benaderingen voor tabulaire anomaliedetectie. Voordat u een van beide op productieschaal inzet, moet u weten hoe LLM's er werkelijk voorstaan binnen een breder scala aan paradigma's voor anomaliedetectie. Dat is het expliciete doel van AD-LLM, dat LLM's benchmarkt over drie verschillende rollen: zero-shot detector, engine voor data-augmentatie en adviseur voor modelselectie. De focus ligt op NLP-tekstdata in plaats van tabulaire grootboekmutaties, maar de methodologische lessen zijn overdraagbaar.

Het artikel

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Tiankai Yang, Yi Nian en collega's van USC en Texas A&M introduceren AD-LLM (arXiv:2412.11142, ACL Findings 2025), de eerste benchmark die LLM's systematisch evalueert over drie paradigma's voor anomaliedetectie op NLP-datasets. De setting is 'one-class classification': trainingsdata bevat alleen normale voorbeelden, en het model moet anomalieën signaleren tijdens de testfase. De vijf datasets — AG News, BBC News, IMDB Reviews, N24 News en SMS Spam — zijn allemaal afgeleid van tekstclassificatietaken waarbij één categorie als afwijkend is aangemerkt. Het artikel zet twee LLM's, GPT-4o en Llama 3.1 8B Instruct, af tegen 18 traditionele unsupervised baselines die uiteenlopen van end-to-end methoden (CVDD, DATE) tot combinaties van embeddings en detectors in twee stappen (OpenAI-embeddings + LUNAR, LOF, Isolation Forest, etc.).

Belangrijkste inzichten

  • Zero-shot detectie werkt goed voor tekst. GPT-4o scoort een AUROC van 0,9293–0,9919 op de vijf datasets in de 'Normal+Anomaly' setting; Llama 3.1 bereikt 0,8612–0,9487. De beste traditionele baseline, OpenAI + LUNAR, scoort rond de 0,92 op AG News — GPT-4o evenaart of verslaat dit zonder enige training.
  • Synthetische augmentatie helpt consistent, maar bescheiden. Door LLM's gegenereerde synthetische voorbeelden verbeteren de OpenAI + LUNAR-pipeline op alle vijf de datasets. Augmentatie van categoriebeschrijvingen verbetert ook de meeste baselines, hoewel de winst ongelijk verdeeld is — Llama 3.1 verbetert de AUROC met +0,07 op IMDB Reviews, maar elders zijn de resultaten kleiner.
  • Modelselectie is de zwakke schakel. GPT-o1-preview adviseert modellen die op de meeste datasets beter presteren dan de gemiddelde baseline-prestaties, en benadert af en toe de beste methode (bijv. op IMDB Reviews en SMS Spam). Het identificeert echter nooit betrouwbaar de best presterende methode, en de auteurs erkennen dat de aanbevelingen gebaseerd zijn op simplistische inputs die datasetspecifieke statistieken missen.
  • De kloof tussen open-source en propriëtair is reëel. Het AUROC-voordeel van GPT-4o ten opzichte van Llama 3.1 8B is 4 tot 13 punten, afhankelijk van de dataset. Dit gat is consistent met het patroon dat wordt gezien in publicaties over zero-shot tabulaire anomaliedetectie.
  • NLP-anomaliedetectie mist nog steeds een definitieve benchmark. Vijf datasets, allemaal afgeleid van classificatie-corpora, is mager. Het bijbehorende NLP-ADBench-artikel (EMNLP Findings 2025) breidt dit uit naar acht datasets en 19 algoritmen, maar gebruikt nog steeds dezelfde constructie van 'semantische-categorie-als-anomalie', wat deze taken enigszins kunstmatig maakt.

Wat houdt stand — en wat niet

De zero-shot bevindingen zijn geloofwaardig. Het gebruik van LLM's als scorers zonder finetuning op gelabelde anomaliedata is echt nuttig wanneer de anomalieklasse semantisch coherent is — een spambericht verschilt van een legitiem SMS-bericht op manieren die een goed getraind taalmodel begrijpt. De AUROC-cijfers zijn hoog en de vergelijking met sterke baselines op basis van OpenAI-embeddings is eerlijk.

De reikwijdte is echter beperkt op een manier die in het artikel wordt onderbelicht. In alle vijf de datasets zijn anomalieën gecodeerd als een andere onderwerpcategorie — spam versus legitieme SMS, nieuws van een uitgesloten uitgever versus in-distributie bronnen. Dit betekent dat de LLM in feite onderwerpclassificatie uitvoert, een taak waarvoor het expliciet is voorgetraind. De benchmark bevat geen semantische anomalieën binnen een enkele categorie (bijv. ongebruikelijke transacties binnen hetzelfde rekeningtype), wat precies het soort anomalie is dat van belang is voor financiële auditing.

De taken voor data-augmentatie en modelselectie worden geëvalueerd op dezelfde vijf datasets, waardoor het artikel uiteindelijk benchmarkt of LLM's iets andere varianten van hetzelfde beperkte probleem marginaal beter kunnen maken. De auteurs noemen eerlijk zes beperkingen — waaronder het feit dat ze slechts een subset van LLM's testen, few-shot en finetuning-regimes uitsluiten, en vertrouwen op simplistische inputs voor modelselectie — wat intellectueel integer is, maar ook aangeeft hoe voorlopig deze benchmark nog is.

Een resultaat dat de moeite waard is voor sceptici: de AUPRC-scores zijn aanzienlijk lager dan de AUROC voor beide modellen. Llama 3.1 op BBC News bereikt een AUROC van 0,8612 maar slechts een AUPRC van 0,3960, wat de onbalans tussen klassen in de one-class setup weerspiegelt. In auditcontexten waar hoge precisie vereist is, is AUPRC de betekenisvollere metriek, en hier is het beeld minder rooskleurig.

Waarom dit belangrijk is voor Finance AI

De agenda van Bean Labs omvat twee use-cases voor anomaliedetectie: het in realtime onderscheppen van ongebruikelijke grootboekregels (tabulair, gestructureerd) en het signaleren van verdachte verhalende tekst in facturen, memo's of supporttickets (ongestructureerde NLP). AD-LLM is direct relevant voor de tweede casus en geeft ons een realistisch plafond: GPT-4o kan zero-shot anomalieën op onderwerpsniveau in tekst detecteren met een AUROC boven de 0,93 op schone, gebalanceerde datasets. Dat is een nuttige 'prior', maar anomalieën in grootboekomschrijvingen zijn subtieler — een factuurmemo die een routinedienst beschrijft maar toebehoort aan een leverancier die is gemarkeerd voor verdachte patronen, is geen probleem van onderwerpclassificatie. De benchmark biedt een startpunt, geen definitief antwoord.

De bevinding over modelselectie is apart interessant voor systeemontwerp. De droom om een LLM te vragen "welke anomaliedetector moet ik gebruiken voor deze dataset?" en een betrouwbaar antwoord te krijgen, komt nog niet uit. Dat betekent dat de keuze tussen finetuning in AnoLLM-stijl, causale prompting in CausalTAD-stijl of een klassieke embedding-methode nog steeds menselijk oordeel of systematische empirische evaluatie vereist — het kan niet worden gedelegeerd aan een LLM-adviseur.

Wat nu te lezen

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — de begeleidende benchmark van dezelfde groep, die acht datasets en 19 algoritmen beslaat; biedt de bredere context van klassieke baselines die de op vijf datasets beperkte AD-LLM niet kan bieden.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — geeft een overzicht van het volledige landschap van op LLM gebaseerde AD-benaderingen voor tekst, afbeeldingen en tabulaire modaliteiten; vult de context in waarin AD-LLM zich bevindt ten opzichte van eerder werk.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — de tabulaire tegenhanger; het vergelijken van de op waarschijnlijkheid gebaseerde benadering met de op prompts gebaseerde zero-shot strategie van AD-LLM verduidelijkt welk paradigma geschikter is voor Beancount-grootboekmutaties.