پرش به محتوای اصلی

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

سه مطلب قبلی در این رشته، به AnoLLM، CausalTAD و AD-LLM اختصاص داشت که هر کدام به‌طور خاص تشخیص ناهنجاری در داده‌های جدولی را هدف قرار داده بودند. این بررسی جامع توسط روئی‌یاو شو و کایزه دینگ که در یافته‌های NAACL 2025 پذیرفته شده است، قرار بود این رشته‌ها را در یک نقشه چشم‌انداز واحد به هم متصل کند. من انتظار طبقه‌بندی‌ای را داشتم که فضای طراحی را شفاف کند؛ اما آنچه به دست آوردم عمدتاً بررسی تشخیص ناهنجاری در تصاویر و ویدئوها با لایه‌ای نازک از کلی‌گویی بود.

مقاله

2026-07-03-llm-anomaly-ood-detection-survey

بررسی شو و دینگ (arXiv:2409.01980) پیشنهاد می‌کند که تشخیص ناهنجاری و تشخیص داده‌های خارج از توزیع (OOD) مبتنی بر LLM به دو کلاس سطح بالا سازماندهی شوند: LLMها برای تشخیص (Detection)، که در آن مدل مستقیماً ناهنجاری‌ها را شناسایی می‌کند، و LLMها برای تولید (Generation)، که در آن مدل داده‌های آموزشی را تقویت می‌کند یا توضیحات به زبان طبیعی ارائه می‌دهد که به یک تشخیص‌دهنده در پایین‌دست خوراک می‌دهد. هر کلاس بیشتر تقسیم می‌شود. تشخیص به روش‌های مبتنی بر پرامپت (LLMهای منجمد یا تنظیم‌شده که با پرامپت‌های زبان طبیعی فراخوانی می‌شوند) و روش‌های مبتنی بر تضاد (مدل‌های خانواده CLIP که با مقایسه قطعات تصویر با توضیحات متنی، ناهنجاری را امتیازدهی می‌کنند) تقسیم می‌شود. تولید به روش‌های مبتنی بر تقویت داده (تولید برچسب‌های شبه-OOD یا نمونه‌های اقلیت مصنوعی) و روش‌های مبتنی بر توضیح (تولید منطق‌های زبان طبیعی برای رویدادهای علامت‌گذاری شده) تقسیم می‌شود.

لیست مطالعه همراه در گیت‌هاب حدود ۳۹ مقاله را پوشش می‌دهد: ۲۴ مقاله در تشخیص، ۱۰ مقاله در تقویت داده و ۵ مقاله در توضیح.

ایده‌های کلیدی

  • روش‌های مبتنی بر تضاد در تشخیص ناهنجاری تصویر غالب هستند. WinCLIP به AUROC ۹۱.۸٪ و ۸۵.۱٪ در طبقه‌بندی و بخش‌بندی ناهنجاری صفر-شات (Zero-shot) روی MVTec-AD بدون هیچ‌گونه تنظیم خاصِ مجموعه داده دست می‌یابد که با روش‌های نظارت‌شده آموزش‌دیده روی آن مجموعه داده رقابت می‌کند.
  • LLMهای منجمد در داده‌های غیرمتنی با شکاف مدالیته مواجه می‌شوند. این بررسی صراحتاً خاطرنشان می‌کند که «فراخوانی مستقیم LLMهای منجمد برای نتایج تشخیص ناهنجاری یا OOD در انواع مختلف داده‌ها، به دلیل شکاف ذاتی مدالیته بین متن و سایر مدالیته‌های داده، اغلب منجر به عملکرد پایین‌تر از حد بهینه می‌شود.»
  • تنظیم LoRA و آداپتور بخش زیادی از این شکاف را جبران می‌کند. روش‌هایی مانند AnomalyGPT و AnomalyCLIP با تکنیک‌های کارآمد از نظر پارامتر (Parameter-efficient) تنظیم دقیق می‌شوند و به‌طور قابل‌توجهی از همتایان منجمد خود بهتر عمل می‌کنند.
  • تولید به عنوان ابزار تقویت داده کمتر از حد مورد استفاده قرار گرفته است. برچسب‌های شبه-OOD در سطح کپشن تولید شده توسط BLIP-2 در تشخیص OOD بهتر از جایگزین‌های در سطح کلمه و توضیحات عمل می‌کنند، که نشان می‌دهد نظارت متنی غنی‌تر حتی برای وظایف بصری نیز اهمیت دارد.
  • تولید مبتنی بر توضیح، جدیدترین زیرمجموعه است. سیستم‌هایی مانند Holmes-VAD و VAD-LLaMA فراتر از پرچم‌های باینری عمل کرده و منطق‌های زبان طبیعی برای رویدادهای ناهنجار، عمدتاً در ویدئوهای نظارتی، تولید می‌کنند.
  • داده‌های جدولی تقریباً غایب هستند. این بررسی تنها به یک روش — "Tabular" توسط لی و همکاران (۲۰۲۴) — اشاره می‌کند که ردیف‌های جدولی را به پرامپت‌های متنی تبدیل کرده و با LoRA تنظیم دقیق می‌کند، اما هیچ آمار مقایسه‌ای ارائه نمی‌دهد.

چه چیزی پابرجاست و چه چیزی نه

طبقه‌بندی دوکلاسی واقعاً تمیز است و احتمالاً از آن برای سازماندهی تفکر خودم استفاده خواهم کرد. تمایز تشخیص در برابر تولید، یک دوشاخه معماری واقعی را نشان می‌دهد: یا از LLM می‌خواهید مستقیماً طبقه‌بندی کند یا از آن برای ساخت سیگنال آموزشی بهتر برای یک تشخیص‌دهنده سنتی استفاده می‌کنید.

آنچه نمی‌توانم بپذیرم، قاب‌بندی مقاله به عنوان بررسی جامع تشخیص ناهنجاری به‌طور کلی است. پوشش مطالب به‌طور مفرط بر تصاویر نقص‌های صنعتی (MVTec-AD, VisA) و ویدئوهای نظارتی (UCF-Crime, XD-Violence) متمرکز است. از حدود ۳۹ مقاله فهرست شده، تقریباً هیچ‌کدام به داده‌های جدولی یا مالی نمی‌پردازند. سری‌های زمانی چند ارجاع دارند. داده‌های جدولی تنها یک جمله سهم برده‌اند. این یک نقشه چشم‌انداز برای Bean Labs نیست — این نقشه‌ای برای محققان بینایی ماشین است که می‌خواهند از CLIP برای تشخیص نقص استفاده کنند.

نویسندگان اذعان می‌کنند که «محدودیت فضا مانع از خلاصه‌های دقیق معیارها شده است»، که راهی مودبانه برای گفتن این است که هیچ جدول مقایسه‌ای وجود ندارد. برای یک مقاله مروری، نبود ترکیب کمی (Quantitative Synthesis) یک شکاف بزرگ است. خوانندگان نمی‌توانند بدون پیگیری جداگانه تک‌تک مقالات ارجاع شده، تصمیم بگیرند کدام پارادایم برای مورد استفاده آن‌ها بهتر است.

چالش توهم (Hallucination) به عنوان یک مسئله باز فهرست شده است، اما پرداختن به آن سطحی است — ریسک را نام می‌برد بدون اینکه تحلیل کند کدام پارادایم‌های تشخیص بیشتر یا کمتر مستعد هستند، یا اینکه چگونه تولید مبتنی بر توضیح ممکن است توهمات را از طریق بررسی انسانی قابل تشخیص‌تر کند.

چرا این برای هوش مصنوعی مالی مهم است

دو زیرمجموعه علی‌رغم پوشش سنگین تصویری، مرتبط هستند. اول، زیرمجموعه تولید مبتنی بر توضیح دقیقاً همان چیزی است که عوامل حسابرسی Beancount به آن نیاز دارند: نه فقط یک پرچم که نشان دهد یک ورودی دفتر کل ناهنجار است، بلکه یک جمله به زبان طبیعی که دلیل آن را توضیح دهد. حسابرسان مالی نمی‌توانند بر اساس یک خروجی باینری عمل کنند. دوم، سکوت تقریباً کامل بررسی درباره تشخیص ناهنجاری جدولی خود آموزنده است — این تایید می‌کند که رشته مطالب AnoLLM، CausalTAD و AD-LLM که من دنبال کرده‌ام، یک حوزه پیشرو است نه یک مسیر پرتردد، و طراحی ابزارهای حسابرسی مبتنی بر LLM برای دفاتر کل Beancount مستلزم ترکیب بینش‌هایی از تشخیص ناهنجاری بینایی است که هنوز به محیط‌های جدولی منتقل نشده‌اند.

توازن بین پرامپت‌نویسی و تنظیم دقیق (Prompting-vs-tuning) کاربردی‌ترین یافته است: پرامپت‌نویسی صفر-شات به عنوان یک تخمین اولیه کار می‌کند اما از شکاف مدالیته رنج می‌برد؛ تنظیم دقیق مبتنی بر LoRA روی مثال‌های برچسب‌دار معرف، این شکاف را می‌بندد. برای استقرار Beancount با مثال‌های ناهنجاری برچسب‌دار از دفاتر کل تاریخی، مسیر تنظیم دقیق قابل‌اعتمادتر از پرامپت‌نویسی محض به نظر می‌رسد.

چه چیزی را بعداً بخوانیم

  • "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — از جاسازی‌های Sentence-transformer مدل زبانی روی ورودی‌های واقعی دفتر کل استفاده می‌کند؛ پلی مستقیم از چارچوب این بررسی به مورد استفاده جدولی Beancount.
  • "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — خط لوله چند‌عاملی برای تشخیص ناهنجاری داده‌های بازار؛ الگوی هماهنگی چند‌عاملی ممکن است به حسابرسی دفتر کل نیز منتقل شود.
  • AnomalyGPT (arXiv:2308.15366) — یک LVLM تنظیم‌شده برای تشخیص ناهنجاری صنعتی با مکان‌یابی در سطح پیکسل؛ خواندن این مقاله روشن می‌کند که «تنظیم LLM برای تشخیص» از نظر معماری واقعاً به چه معناست، چیزی که بررسی حاضر توصیف کرده اما توضیح نمی‌دهد.