پرش به محتوای اصلی

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

دو نوشته آخر در این مجموعه به AnoLLM و CausalTAD اختصاص داشت؛ رویکردهایی مبتنی بر تنظیم دقیق (Fine-tuning) و مهندسی پرامپت برای تشخیص ناهنجاری در داده‌های جدولی. پیش از پیاده‌سازی هر یک از این‌ها در مقیاس عملیاتی، لازم است بدانید که مدل‌های زبانی بزرگ (LLM) در طیف وسیع‌تری از پارادایم‌های تشخیص ناهنجاری در چه جایگاهی قرار دارند. این هدف صریح AD-LLM است که LLMها را در سه نقش متمایز محک می‌زند: تشخیص‌دهنده بدون آموزش (Zero-shot)، موتور تقویت داده و مشاور انتخاب مدل. تمرکز اینجا بر داده‌های متنی NLP است تا اقلام دفتر کل جدولی، اما درس‌های متدولوژیک آن قابل انتقال هستند.

مقاله

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

تیان‌کای یانگ، یی نیان و همکارانشان در USC و Texas A&M، بنچ‌مارک AD-LLM را معرفی کردند (arXiv:2412.11142, ACL Findings 2025). این نخستین بنچ‌مارکی است که LLMها را به‌طور سیستماتیک در سه پارادایم تشخیص ناهنجاری روی مجموعه‌داده‌های NLP ارزیابی می‌کند. محیط آزمایش، طبقه‌بندی تک‌کلاسه (One-class classification) است: داده‌های آموزشی فقط شامل نمونه‌های نرمال هستند و مدل باید ناهنجاری‌ها را در زمان آزمایش شناسایی کند. پنج مجموعه‌داده — شامل AG News، BBC News، IMDB Reviews، N24 News و SMS Spam — همگی از وظایف طبقه‌بندی متن مشتق شده‌اند که در آن‌ها یک دسته به عنوان «ناهنجار» تعیین شده است. این مقاله دو مدل GPT-4o و Llama 3.1 8B Instruct را در برابر ۱۸ مدل پایه بدون نظارت سنتی قرار می‌دهد که شامل روش‌های سرتاسری (CVDD, DATE) و ترکیبات دو مرحله‌ایِ جاسازی‌ بعلاوه تشخیص‌دهنده (OpenAI embeddings + LUNAR, LOF, Isolation Forest و غیره) می‌شوند.

ایده‌های کلیدی

  • تشخیص بدون آموزش (Zero-shot) برای متن به‌خوبی کار می‌کند. GPT-4o امتیاز AUROC بین ۰.۹۲۹۳ تا ۰.۹۹۱۹ را در پنج مجموعه‌داده در تنظیمات نرمال+ناهنجار کسب کرد؛ Llama 3.1 به امتیاز ۰.۸۶۱۲ تا ۰.۹۴۸۷ رسید. بهترین خط پایه سنتی، یعنی OpenAI + LUNAR، در AG News امتیازی حدود ۰.۹۲ گرفت که GPT-4o بدون هیچ آموزشی با آن برابری کرده یا از آن پیشی گرفت.
  • تقویت مصنوعی داده‌ها به‌طور مستمر اما اندک کمک می‌کند. نمونه‌های مصنوعی تولید شده توسط LLM باعث بهبود خط لوله OpenAI + LUNAR در هر پنج مجموعه‌داده شد. تقویت از طریق توصیف دسته‌ها نیز اکثر خطوط پایه را بهبود بخشید، اگرچه دستاوردها نابرابر بود؛ برای مثال Llama 3.1 امتیاز AUROC را در IMDB Reviews تا ۰.۰۷+ افزایش داد، اما نتایج در جاهای دیگر کوچک‌تر بود.
  • انتخاب مدل حلقه ضعیف زنجیره است. GPT-o1-preview مدل‌هایی را توصیه می‌کند که در اکثر مجموعه‌داده‌ها از میانگین عملکرد خط پایه فراتر می‌روند و گاهی به بهترین روش نزدیک می‌شوند (مثلاً در IMDB Reviews و SMS Spam). اما هرگز به‌طور قابل‌اطمینانی بهترین عملکرد را شناسایی نمی‌کند و نویسندگان اذعان دارند که توصیه‌ها بر اساس ورودی‌های ساده‌ای است که فاقد آمارهای اختصاصی مجموعه‌داده هستند.
  • شکاف میان مدل‌های متن‌باز و تجاری واقعی است. برتری AUROC مدل GPT-4o نسبت به Llama 3.1 8B بسته به مجموعه‌داده بین ۴ تا ۱۳ واحد است؛ شکافی که با الگوی مشاهده شده در مقالات تشخیص ناهنجاری جدولی بدون آموزش همخوانی دارد.
  • تشخیص ناهنجاری NLP هنوز فاقد یک بنچ‌مارک قطعی است. پنج مجموعه‌داده که همگی از بدنه طبقه‌بندی مشتق شده‌اند، کم است. مقاله همراه NLP-ADBench (EMNLP Findings 2025) این دامنه را به هشت مجموعه‌داده و ۱۹ الگوریتم گسترش می‌دهد، اما همچنان از همان ساختار «دسته معنایی به عنوان ناهنجاری» استفاده می‌کند که این وظایف را تا حدی مصنوعی جلوه می‌دهد.

چه چیزی تایید می‌شود — و چه چیزی نه

یافته‌های مربوط به تشخیص بدون آموزش معتبر هستند. استفاده از LLMها به عنوان امتیازدهنده بدون تنظیم دقیق روی داده‌های ناهنجاری برچسب‌دار، زمانی که کلاس ناهنجاری از نظر معنایی منسجم باشد، واقعاً مفید است — یک پیام اسپم به روش‌هایی از یک پیام معمولی متمایز می‌شود که یک مدل زبانیِ خوب‌آموزش‌دیده آن را درک می‌کند. اعداد AUROC بالا هستند و مقایسه با خطوط پایه قویِ مبتنی بر جاسازی‌های OpenAI منصفانه است.

با این حال، دامنه تحقیق به شکلی محدود است که مقاله آن را کمتر از حد واقعی جلوه می‌دهد. در هر پنج مجموعه‌داده، ناهنجاری‌ها به عنوان یک دسته موضوعی متفاوت کدگذاری شده‌اند — اسپم در مقابل پیامک قانونی، اخبار یک ناشر خاص در مقابل خروجی‌های توزیع‌شده. این بدان معناست که LLM در اصل در حال انجام طبقه‌بندی موضوعی است؛ وظیفه‌ای که صراحتاً برای آن پیش‌آموزش دیده است. این بنچ‌مارک شامل ناهنجاری‌های معنایی در یک دسته واحد نمی‌شود (مثلاً تراکنش‌های غیرعادی در یک نوع حساب یکسان)، که دقیقاً همان نوع ناهنجاری است که برای حسابرسی مالی اهمیت دارد.

وظایف تقویت داده و انتخاب مدل نیز روی همان پنج مجموعه‌داده ارزیابی شده‌اند، بنابراین مقاله در نهایت بنچ‌مارک می‌کند که آیا LLMها می‌توانند برش‌های کمی متفاوت از همان مشکل محدود را به مقدار ناچیزی بهتر کنند یا خیر. نویسندگان آزادانه شش محدودیت را فهرست کرده‌اند — از جمله اینکه آن‌ها فقط زیرمجموعه‌ای از LLMها را آزمایش کرده‌اند، رژیم‌های آموزشی Few-shot و تنظیم دقیق را حذف کرده‌اند و برای انتخاب مدل به ورودی‌های ساده تکیه کرده‌اند — که از نظر علمی صادقانه است اما نشان می‌دهد این بنچ‌مارک چقدر مقدماتی است.

یک نتیجه که شکاکان باید به آن توجه کنند: امتیازهای AUPRC برای هر دو مدل به‌طور قابل‌توجهی پایین‌تر از AUROC است. مدل Llama 3.1 در BBC News به AUROC ۰.۸۶۱۲ می‌رسد اما AUPRC آن تنها ۰.۳۹۶۰ است که بازتاب‌دهنده عدم تعادل کلاس‌ها در ساختار تک‌کلاسه است. در بافت‌های حسابرسی با دقت بالا، AUPRC معیار معنادارتری است و در اینجا تصویر کمتر خوشایند است.

چرا این موضوع برای هوش مصنوعی مالی مهم است

برنامه Bean Labs شامل دو مورد استفاده برای تشخیص ناهنجاری است: شناسایی اقلام غیرعادی دفتر کل در زمان واقعی (جدولی، ساختاریافته) و پرچم‌گذاری متن‌های روایی مشکوک در فاکتورها، یادداشت‌ها یا تیکت‌های پشتیبانی (NLP غیرساختاریافته). AD-LLM مستقیماً به مورد دوم می‌پردازد و سقف واقع‌بینانه‌ای به ما می‌دهد: GPT-4o می‌تواند ناهنجاری‌های سطح موضوعی را در متن با AUROC بالای ۰.۹۳ در مجموعه‌داده‌های تمیز و متعادل به‌صورت بدون آموزش تشخیص دهد. این یک دانش پیشین مفید است، اما ناهنجاری‌های شرح دفتر کل ظریف‌تر هستند — یادداشت فاکتوری که یک سرویس روتین را توصیف می‌کند اما متعلق به فروشنده‌ای است که برای الگوهای مشکوک پرچم‌گذاری شده، یک مسئله طبقه‌بندی موضوعی نیست. این بنچ‌مارک یک نقطه شروع فراهم می‌کند، نه یک پاسخ نهایی.

یافته‌های مربوط به انتخاب مدل نیز برای طراحی سیستم جالب است. این رویا که از یک LLM بپرسیم «از کدام تشخیص‌دهنده ناهنجاری برای این مجموعه‌داده استفاده کنم؟» و پاسخی قابل‌اعتماد بگیریم، هنوز محقق نشده است. این بدان معناست که انتخاب بین تنظیم دقیق به سبک AnoLLM، پرامپت‌نویسی علی به سبک CausalTAD، یا یک روش جاسازی کلاسیک، همچنان نیازمند قضاوت انسانی یا ارزیابی تجربی سیستماتیک است و نمی‌توان آن را به یک مشاور LLM واگذار کرد.

آنچه باید در ادامه بخوانید

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — بنچ‌مارک مکمل از همان گروه، شامل هشت مجموعه‌داده و ۱۹ الگوریتم؛ بافت وسیع‌تری از خطوط پایه کلاسیک را ارائه می‌دهد که دامنه پنج مجموعه‌داده‌ای AD-LLM قادر به پوشش آن نیست.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — بررسی کامل چشم‌انداز رویکردهای تشخیص ناهنجاری مبتنی بر LLM در قالب‌های متنی، تصویری و جدولی؛ جایگاه AD-LLM را نسبت به کارهای قبلی مشخص می‌کند.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — همتای جدولی؛ مقایسه رویکرد مبتنی بر احتمال (Likelihood) آن با استراتژی بدون آموزشِ مبتنی بر پرامپت در AD-LLM، روشن می‌کند که کدام پارادایم برای اقلام دفتر کل Beancount مناسب‌تر است.