Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий
Бенчмарк AD-LLM оценивает GPT-4o и Llama 3.1 8B в трех ролях — детектора zero-shot, инструмента аугментации данных и советника по выбору модели — на пяти наборах данных NLP; GPT-4o достигает AUROC 0,93–0,99 в режиме zero-shot, однако выбор моделей на базе LLM остается ненадежным, что имеет прямое значение для ИИ в сфере финансового аудита.
