Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií
AD-LLM testuje GPT-4o a Llama 3.1 8B v troch úlohách detekcie anomálií – ako zero-shot detektor, nástroj na augmentáciu dát a poradca pri výbere modelu – na piatich NLP datasetoch; GPT-4o dosahuje AUROC 0,93 – 0,99 v režime zero-shot, avšak výber modelu pomocou LLM zostáva nespoľahlivý, čo má priamy vplyv na AI vo finančnom audite.
