Zero-Shot Anomalie-Detectie met LLM's: Hoe GPT-4 Presteert op Tabulaire Data
Het AuditCopilot-artikel dat ik vorige maand las, benchmarkte LLM's op de detectie van fraude in journaalposten door middel van fine-tuning op gelabelde anomaliegegevens. Sindsdien ben ik benieuwd of zero-shot prompting je ook al een heel eind kan brengen — zonder dat er gelabelde anomalieën nodig zijn en zonder domeinspecifieke fine-tuning. Dat is precies de belofte van "Anomaly Detection of Tabular Data Using LLMs" door Li, Zhao, Qiu, Kloft, Smyth, Rudolph en Mandt (arXiv:2406.16308), een workshop-paper uit medio 2024. Het belangrijkste resultaat — GPT-4 die klassieke transductieve methoden zoals ECOD evenaart — klonk bijna te mooi om waar te zijn, dus heb ik het aandachtig gelezen.
Het artikel
Het kernidee is wat de auteurs "batch-niveau" anomalie-detectie noemen. In plaats van een model te trainen op data en vervolgens testpunten individueel te scoren, presenteer je de LLM een batch van N rijen op het moment van inferentie en vraag je om te identificeren welke rijen afwijkend zijn ten opzichte van de andere rijen in dezelfde batch. Anomalieën zijn schaars binnen een batch, dus een voldoende capabel model zou impliciet het meerderheidspatroon moeten herkennen en de uitbijters moeten markeren. Geen hertraining, geen gelabelde voorbeelden — alleen de getrainde wereldkennis van de LLM en het redeneren binnen de context (in-context reasoning).
Ze evalueren dit op de ODDS-benchmark met 32 datasets, een standaardverzameling van real-world tabulaire anomalie-detectieproblemen. Vanwege beperkingen in het contextvenster beperken ze elke evaluatiebatch tot 150 rijen en 10 kolommen. Kenmerken worden per dimensie geserialiseerd met de template "Data i is x_i." en de LLM wordt gevraagd om de afwijkende indices voor elke dimensie afzonderlijk te benoemen; de uiteindelijke anomaliescore van een rij aggregeert hoeveel dimensies deze hebben gemarkeerd.
Voor propriëtaire modellen testen ze zero-shot. Voor open-source modellen (Llama2-7B, Llama2-70B, Mistral-7B) is de zero-shot prestatie matig, dus stellen ze ook voor om te fine-tunen op een synthetische dataset van 5.000 batches gegenereerd uit Gaussiaanse mengmodellen en categorische distributies — waarbij geen echte anomalielabels nodig zijn. De gefinetunede varianten worden Llama2-AD en Mistral-AD genoemd.
Belangrijkste ideeën
- GPT-4 zero-shot behaalt een gemiddelde AUROC van 74,1 over 32 ODDS-datasets, vergeleken met de 75,5 van ECOD (de beste klassieke baseline) en de 70,7 van KNN. GPT-3.5 blijft achter op 68,3.
- Llama2-7B zero-shot scoort slechts 51,1 — nagenoeg willekeurig — maar fine-tuning op synthetische data brengt dit naar 60,0, een stijging van +8,9 punten. Mistral-7B verbetert van 62,4 naar 69,1 (+6,7 punten).
- De "batch-niveau" benadering is een interessante conceptuele stap: de LLM fungeert als een impliciete dichtheidsschatter over de batch in plaats van als een discriminator die getraind is om klassen te scheiden.
- Fine-tuning maakt gebruik van LoRA op uitsluitend synthetische Gaussiaanse en categorische data — er zijn geen echte anomalie-annotaties nodig. Dat is een aanzienlijk praktisch voordeel als het generaliseert.
- Output-parsing is fragiel voor open-source modellen; de auteurs dwingen grammaticabeperkingen af en gebruiken regex-patronen om anomalie-indices te extraheren.
Wat overeind blijft — en wat niet
De dekking van de benchmark is het grootste probleem. Het artikel vergelijkt met slechts twee klassieke baselines: KNN en ECOD. Isolation Forest, LOF, One-Class SVM en alle deep learning anomalie-detectiemethoden ontbreken volledig. ECOD is toevallig een sterke baseline op ODDS — maar GPT-4 verslaat het niet overduidelijk (74,1 vs 75,5), en Mistral-AD (69,1) evenmin. Tegenover een bredere set baselines is het niet vanzelfsprekend dat GPT-4 zijn positie zou behouden.
De beperking van 150 rijen / 10 kolommen is ook een serieuze restrictie waar het artikel onvoldoende op ingaat. Echte boekhoudkundige grootboeken bevatten duizenden transacties en veel meer kenmerken. Of de batch-niveau benadering schaalt — of dat deze verslechtert omdat anomalieën moeilijker te onderscheiden worden in grotere batches met diversere patronen — is niet getest.
De variantiecijfers zijn zorgwekkend. GPT-3.5 op de breastw-dataset scoort 63,1 ± 34,4 AUROC. Dat is geen methode die je kunt inzetten wanneer een enkele run plausibel overal tussen de 30 en 98 kan scoren. GPT-4 is consistenter (98,7 ± 0,5 op breastw), maar vertoont vergelijkbare variantie op andere datasets.
De aanname van onafhankelijkheid van kenmerken is een ander gat. De LLM bevraagt elke kenmerkdimensie afzonderlijk en aggregeert de scores. Het kan niet redeneren over gezamenlijke patronen van kenmerken — een transactie met een ongebruikelijke combinatie van bedrag, tegenpartij en rekeningcode kan er op elke individuele dimensie normaal uitzien. Multidimensionale anomalieën, die aantoonbaar de meest voorkomende en economisch significante zijn in de boekhouding, zullen met deze aanpak niet worden gevangen zonder een aanzienlijk herontwerp.
De vervolgliteratuur bevestigt deze zorgen. AnoLLM (ICLR 2025) van Amazon Science kiest een andere aanpak: in plaats van te vragen naar anomalie-indices, finetunet het een LLM om de datadistributie te modelleren en gebruikt het de negatieve log-likelihood als de anomaliescore, waardoor het fragiele systeem van output-parsing volledig wordt vermeden. CausalTAD (arXiv:2602.07798, februari 2026) identificeert een ander hiaat dat zowel dit artikel als AnoLLM delen: de kolomvolgorde tijdens serialisatie is willekeurig, waarbij causale relaties tussen kenmerken worden genegeerd. Het herordenen van kolommen om de causale structuur te respecteren verbetert de gemiddelde AUC-ROC van ~0,80 naar 0,83 op zes benchmarks.
Waarom dit belangrijk is voor finance AI
Ondanks de beperkingen is de zero-shot richting oprecht interessant voor anomalie-detectie in Beancount-grootboeken. Het AuditCopilot-artikel vereiste fine-tuning op gelabelde anomalievoorbeelden — wat in de praktijk lastig te verkrijgen is omdat echte fraudecases zeldzaam en gevoelig zijn, en het labelen ervan deskundige accountants vereist. De synthetische fine-tuning-aanpak van dit artikel (Llama2-AD, Mistral-AD) omzeilt dit: je genereert realistisch ogende transactiebatches met kunstmatige anomalieën en finetunet zonder ooit een echt grootboek aan te raken.
Het batch-niveau mechanisme sluit natuurlijk aan bij hoe accountants daadwerkelijk denken: "welke boekingen in de transacties van deze maand zien er ongebruikelijk uit ten opzichte van de rest?" Dat is de intuïtie achter journal entry testing in auditing. De uitdaging is dat echte grootboek-anomalieën multidimensionaal zijn — een betaling die normaal is qua bedrag, maar ongebruikelijk qua timing, tegenpartij en rekeningcombinatie. Het onafhankelijk bevragen van elk kenmerk, zoals dit artikel doet, zal deze niet vangen.
Wat ik zou willen zien is een versie van deze aanpak waarbij de volledige rij holistisch wordt ingebed en gescoord — dichter bij wat AnoLLM doet met distributiemodellering — toegepast op een realistische steekproef van Beancount-transactiedata. Het idee van synthetische fine-tuning verdient serieus onderzoek; het genereren van synthetische Beancount-grootboekbatches met geïnjecteerde anomalieën (foute rekeningen, dubbele boekingen, onwaarschijnlijke bedragen) is eenvoudig, en het finetunen van een 7B-model daarop zou een nuttige zero-shot auditor kunnen opleveren zonder dat er echte gelabelde data nodig is.
Wat nu te lezen
- AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; de meest directe uitbreiding van dit werk, waarbij gebruik wordt gemaakt van likelihood-gebaseerde scores in plaats van voorspellingen van indices via prompts.
- CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; pakt het tekort in kolomvolgorde aan door serialisatie af te stemmen op de causale structuur.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; een bredere benchmark die NLP-anomaliedetectietaken dekt, nuttig om te begrijpen waar LLM's al betrouwbaar versus onbetrouwbaar zijn als anomaliedetectoren.
