Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті
AD-LLM тестує GPT-4o та Llama 3.1 8B у трьох ролях виявлення аномалій — zero-shot детектор, інструмент доповнення даних та радник із вибору моделі — на п’яти наборах даних NLP; GPT-4o досягає AUROC 0,93–0,99 zero-shot, але вибір моделі на основі LLM залишається ненадійним, що має прямі наслідки для ШІ у фінансовому аудиті.
