بنچمارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت
دو نوشته آخر در این مجموعه به AnoLLM و CausalTAD اختصاص داشت؛ رویکردهایی مبتنی بر تنظیم دقیق (Fine-tuning) و مهندسی پرامپت برای تشخیص ناهنجاری در دادههای جدولی. پیش از پیادهسازی هر یک از اینها در مقیاس عملیاتی، لازم است بدانید که مدلهای زبانی بزرگ (LLM) در طیف وسیعتری از پارادایمهای تشخیص ناهنجاری در چه جایگاهی قرار دارند. این هدف صریح AD-LLM است که LLMها را در سه نقش متمایز محک میزند: تشخیصدهنده بدون آموزش (Zero-shot)، موتور تقویت داده و مشاور انتخاب مدل. تمرکز اینجا بر دادههای متنی NLP است تا اقلام دفتر کل جدولی، اما درسهای متدولوژیک آن قابل انتقال هستند.
مقاله
تیانکای یانگ، یی نیان و همکارانشان در USC و Texas A&M، بنچمارک AD-LLM را معرفی کردند (arXiv:2412.11142, ACL Findings 2025). این نخستین بنچمارکی است که LLMها را بهطور سیستماتیک در سه پارادایم تشخیص ناهنجاری روی مجموعهدادههای NLP ارزیابی میکند. محیط آزمایش، طبقهبندی تککلاسه (One-class classification) است: دادههای آموزشی فقط شامل نمونههای نرمال هستند و مدل باید ناهنجاریها را در زمان آزمایش شناسایی کند. پنج مجموعهداده — شامل AG News، BBC News، IMDB Reviews، N24 News و SMS Spam — همگی از وظایف طبقهبندی متن مشتق شدهاند که در آنها یک دسته به عنوان «ناهنجار» تعیین شده است. این مقاله دو مدل GPT-4o و Llama 3.1 8B Instruct را در برابر ۱۸ مدل پایه بدون نظارت سنتی قرار میدهد که شامل روشهای سرتاسری (CVDD, DATE) و ترکیبات دو مرحلهایِ جاسازی بعلاوه تشخیصدهنده (OpenAI embeddings + LUNAR, LOF, Isolation Forest و غیره) میشوند.
ایدههای کلیدی
- تشخیص بدون آموزش (Zero-shot) برای متن بهخوبی کار میکند. GPT-4o امتیاز AUROC بین ۰.۹۲۹۳ تا ۰.۹۹۱۹ را در پنج مجموعهداده در تنظیمات نرمال+ناهنجار کسب کرد؛ Llama 3.1 به امتیاز ۰.۸۶۱۲ تا ۰.۹۴۸۷ رسید. بهترین خط پایه سنتی، یعنی OpenAI + LUNAR، در AG News امتیازی حدود ۰.۹۲ گرفت که GPT-4o بدون هیچ آموزشی با آن برابری کرده یا از آن پیشی گرفت.
- تقویت مصنوعی دادهها بهطور مستمر اما اندک کمک میکند. نمونههای مصنوعی تولید شده توسط LLM باعث بهبود خط لوله OpenAI + LUNAR در هر پنج مجموعهداده شد. تقویت از طریق توصیف دستهها نیز اکثر خطوط پایه را بهبود بخشید، اگرچه دستاوردها نابرابر بود؛ برای مثال Llama 3.1 امتیاز AUROC را در IMDB Reviews تا ۰.۰۷+ افزایش داد، اما نتایج در جاهای دیگر کوچکتر بود.
- انتخاب مدل حلقه ضعیف زنجیره است. GPT-o1-preview مدلهایی را توصیه میکند که در اکثر مجموعهدادهها از میانگین عملکرد خط پایه فراتر میروند و گاهی به بهترین روش نزدیک میشوند (مثلاً در IMDB Reviews و SMS Spam). اما هرگز بهطور قابلاطمینانی بهترین عملکرد را شناسایی نمیکند و نویسندگان اذعان دارند که توصیهها بر اساس ورودیهای سادهای است که فاقد آمارهای اختصاصی مجموعهداده هستند.
- شکاف میان مدلهای متنباز و تجاری واقعی است. برتری AUROC مدل GPT-4o نسبت به Llama 3.1 8B بسته به مجموعهداده بین ۴ تا ۱۳ واحد است؛ شکافی که با الگوی مشاهده شده در مقالات تشخیص ناهنجاری جدولی بدون آموزش همخوانی دارد.
- تشخیص ناهنجاری NLP هنوز فاقد یک بنچمارک قطعی است. پنج مجموعهداده که همگی از بدنه طبقهبندی مشتق شدهاند، کم است. مقاله همراه NLP-ADBench (EMNLP Findings 2025) این دامنه را به هشت مجموعهداده و ۱۹ الگوریتم گسترش میدهد، اما همچنان از همان ساختار «دسته معنایی به عنوان ناهنجاری» استفاده میکند که این وظایف را تا حدی مصنوعی جلوه میدهد.
چه چیزی تایید میشود — و چه چیزی نه
یافتههای مربوط به تشخیص بدون آموزش معتبر هستند. استفاده از LLMها به عنوان امتیازدهنده بدون تنظیم دقیق روی دادههای ناهنجاری برچسبدار، زمانی که کلاس ناهن جاری از نظر معنایی منسجم باشد، واقعاً مفید است — یک پیام اسپم به روشهایی از یک پیام معمولی متمایز میشود که یک مدل زبانیِ خوبآموزشدیده آن را درک میکند. اعداد AUROC بالا هستند و مقایسه با خطوط پایه قویِ مبتنی بر جاسازیهای OpenAI منصفانه است.
با این حال، دامنه تحقیق به شکلی محدود است که مقاله آن را کمتر از حد واقعی جلوه میدهد. در هر پنج مجموعهداده، ناهنجاریها به عنوان یک دسته موضوعی متفاوت کدگذاری شدهاند — اسپم در مقابل پیامک قانونی، اخبار یک ناشر خاص در مقابل خروجیهای توزیعشده. این بدان معناست که LLM در اصل در حال انجام طبقهبندی موضوعی است؛ وظیفهای که صراحتاً برای آن پیشآموزش دیده است. این بنچمارک شامل ناهنجاریهای معنایی در یک دسته واحد نمیشود (مثلاً تراکنشهای غیرعادی در یک نوع حساب یکسان)، که دقیقاً همان نوع ناهنجاری است که برای حسابرسی مالی اهمیت دارد.
وظایف تقویت داده و انتخاب مدل نیز روی همان پنج مجموعهداده ارزیابی شدهاند، بنابراین مقاله در نهایت بنچمارک میکند که آیا LLMها میتوانند برشهای کمی متفاوت از همان مشکل محدود را به مقدار ناچیزی بهتر کنند یا خیر. نویسندگان آزادانه شش محدودیت را فهرست کردهاند — از جمله اینکه آنها فقط زیرمجموعهای از LLMها را آزمایش کردهاند، رژیمهای آموزشی Few-shot و تنظیم دقیق را حذف کردهاند و برای انتخاب مدل به ورودیهای ساده تکیه کردهاند — که از نظر علمی صادقانه است اما نشان میدهد این بنچمارک چقدر مقدماتی است.
یک نتیجه که شکاکان باید به آن توجه کنند: امتیازهای AUPRC برای هر دو مدل بهطور قابلتوجهی پایینتر از AUROC است. مدل Llama 3.1 در BBC News به AUROC ۰.۸۶۱۲ میرسد اما AUPRC آن تنها ۰.۳۹۶۰ است که بازتابدهنده عدم تعادل کلاسها در ساختار تککلاسه است. در بافتهای حسابرسی با دقت بالا، AUPRC معیار معنادارتری است و در اینجا تصویر کمتر خوشایند است.
چرا این موضوع برای هوش مصنوعی مالی مهم است
برنامه Bean Labs شامل دو مورد استفاده برای تشخیص ناهنجاری است: شناسایی اقلام غیرعادی دفتر کل در زمان واقعی (جدولی، ساختاریافته) و پرچمگذاری متنهای روایی مشکوک در فاکتورها، یادداشتها یا تیکتهای پشتیبانی (NLP غیرساختاریافته). AD-LLM مستقیماً به مورد دوم میپردازد و سقف واقعبینانهای به ما میدهد: GPT-4o میتواند ناهنجاریهای سطح موضوعی را در متن با AUROC بالای ۰.۹۳ در مجموعهدادههای تمیز و متعادل بهصورت بدون آموزش تشخیص دهد. این یک دانش پیشین مفید است، اما ناهنجاریهای شرح دفتر کل ظریفتر هستند — یادداشت فاکتوری که یک سرویس روتین را توصیف میکند اما متعلق به فروشندهای است که برای الگوهای مشکوک پرچمگذاری شده، یک مسئله طبقهبندی موضوعی نیست. این بنچمارک یک نقطه شروع فراهم میکند، نه یک پاسخ نهایی.
یافتههای مربوط به انتخاب مدل نیز برای طراحی سیستم جالب است. این رویا که از یک LLM بپرسیم «از کدام تشخیصدهنده ناهنجاری برای این مجموعهداده استفاده کنم؟» و پاسخی قابلاعتماد بگیریم، هنوز محقق نشده است. این بدان معناست که انتخاب بین تنظیم دقیق به سبک AnoLLM، پرامپتنویسی علی به سبک CausalTAD، یا یک روش جاسازی کلاسیک، همچنان نیازمند قضاوت انسانی یا ارزیابی تجربی سیستماتیک است و نمیتوان آن را به یک مشاور LLM واگذار کرد.
آنچه باید در ادامه بخوانید
- NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — بنچمارک مکمل از همان گروه، شامل هشت مجموعهداده و ۱۹ الگوریتم؛ بافت وسیعتری از خطوط پایه کلاسیک را ارائه میدهد که دامنه پنج مجموعهدادهای AD-LLM قادر به پوشش آن نیست.
- Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — بررسی کامل چشمانداز رویکردهای تشخیص ناهنجاری مبتنی بر LLM در قالبهای متنی، تصویری و جدولی؛ جایگاه AD-LLM را نسبت به کارهای قبلی مشخص میکند.
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — همتای جدولی؛ مقایسه رویکرد مبتنی بر احتمال (Likelihood) آن با استراتژی بدون آموزشِ مبتنی بر پرامپت در AD-LLM، روشن میکند که کدام پارادایم برای اقلام دفتر کل Beancount مناسبتر است.
