بنچمارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت
بنچمارک AD-LLM مدله ای GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیصدهنده بدون آموزش، تقویتکننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی میکند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست مییابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.
