AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст
AD-LLM сравнява GPT-4o и Llama 3.1 8B в три роли за откриване на аномалии – zero-shot детектор, генератор на данни и съветник за избор на модел – върху пет NLP набора от данни; GPT-4o достига AUROC 0.93–0.99 при zero-shot, но изборът на модел, базиран на LLM, остава ненадежден, с преки последици за ИИ във финансовия одит.
