Een kritische lezing van het NAACL 2025-overzicht van Xu en Ding over LLM-gebaseerde anomalie- en OOD-detectie: de detectie-vs-generatie taxonomie houdt stand, maar de bijna volledige afwezigheid van tabelvormige dekking betekent dat financiële AI-beoefenaars zelf inzichten uit visiemodellen moeten synthetiseren.
AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.
CausalTAD verbetert LLM-gebaseerde tabulaire anomaliedetectie door tabelkolommen te herordenen op basis van causale afhankelijkheden vóór serialisatie, wat de gemiddelde AUC-ROC verhoogt van 0,803 naar 0,834 ten opzichte van AnoLLM op benchmarks met gemengde typen — met directe gevolgen voor het detecteren van anomalieën in gestructureerde grootboekgegevens.
AnoLLM (ICLR 2025) herformuleert tabelgebaseerde anomaliedetectie als LLM-dichtheidsschatting — finetuning op normale rijen en scoren via negatieve log-likelihood. Het presteert beter dan klassieke methoden op fraudedatasets van gemengde types, maar biedt geen voordeel bij puur numerieke gegevens, met reële gevolgen voor het detecteren van anomalieën in Beancount-grootboekvermeldingen.
GPT-4 behaalt een gemiddelde AUROC van 74,1 op de ODDS-benchmark zonder fine-tuning — bijna gelijk aan de klassieke ECOD-baseline van 75,5 — maar faalt bij multidimensionale anomalieën en datasets met hoge variantie; een kritische evaluatie van zero-shot LLM anomalie-detectie en de implicaties voor geautomatiseerde Beancount grootboekcontrole.
AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.
Een diepgaande analyse van de Chain-of-Thought-paper uit 2022 van Wei et al. en de betekenis daarvan voor finance AI — waarom CoT de precisie verhoogt maar de recall bij de detectie van zeldzame gebeurtenissen kan verlagen, waarom de schaaldrempel belangrijk is voor productie-agents, en waar een financieel team dat bouwt op LLM's op moet letten.