بررسی جامع تشخیص ناهنجاری با مدلهای زبانی بزرگ (NAACL 2025): طبقهبندی قوی، غیبت پوشش دادههای جدولی
سه مطلب قبلی در این رشته، به AnoLLM، CausalTAD و AD-LLM اختصاص داشت که هر کدام بهطور خاص تشخیص ناهنجاری در دادههای جدولی را هدف قرار داده بودند. این بررسی جامع توسط روئییاو شو و کایزه دینگ که در یافتههای NAACL 2025 پذیرفته شده است، قرار بود این رشتهها را در یک نقشه چشمانداز واحد به هم متصل کند. من انتظار طبقهبندیای را داشتم که فضای طراحی را شفاف کند؛ اما آنچه به دست آوردم عمدتاً بررسی تشخیص ناهنجاری در تصاویر و ویدئوها با لایهای نازک از کلیگویی بود.
مقاله
%3A%20%D8%B7%D8%A8%D9%82%D9%87%E2%80%8C%D8%A8%D9%86%D8%AF%DB%8C%20%D9%82%D9%88%DB%8C%D8%8C%20%D8%BA%DB%8C%D8%A8%D8%AA%20%D9%BE%D9%88%D8%B4%D8%B4%20%D8%AF%D8%A7%D8%AF%D9%87%E2%80%8C%D9%87%D8%A7%DB%8C%20%D8%AC%D8%AF%D9%88%D9%84%DB%8C)
بررسی شو و دینگ (arXiv:2409.01980) پیشنهاد میکند که تشخیص ناهنجاری و تشخیص دادههای خارج از توزیع (OOD) مبتنی بر LLM به دو کلاس سطح بالا سازماندهی شوند: LLMها برای تشخیص (Detection)، که در آن مدل مستقیماً ناهنجاریها را شناسایی میکند، و LLMها برای تولید (Generation)، که در آن مدل دادههای آموزشی را تقویت میکند یا توضیحات به زبان طبیعی ارائه میدهد که به یک تشخیصدهنده در پاییندست خوراک میدهد. هر کلاس بیشتر تقسیم میشود. تشخیص به روشهای مبتنی بر پرامپت (LLMهای منجمد یا تنظیمشده که با پرامپتهای زبان طبیعی فراخوانی میشوند) و روشهای مبتنی بر تضاد (مدلهای خانواده CLIP که با مقایسه قطعات تصویر با توضیحات متنی، ناهنجاری را امتیازدهی میکنند) تقسیم میشود. تولید به روشهای مبتنی بر تقویت داده (تولید برچسبهای شبه-OOD یا نمونههای اقلیت مصنوعی) و روشهای مبتنی بر توضیح (تولید منطقهای زبان طبیعی برای رویدادهای علامتگذاری شده) تقسیم میشود.
لیست مطالعه همراه در گیتهاب حدود ۳۹ مقاله را پوشش میدهد: ۲۴ مقاله در تشخیص، ۱۰ مقاله در تقویت داده و ۵ مقاله در توضیح.
ایدههای کلیدی
- روشهای مبتنی بر تضاد در تشخیص ناهنجاری تصویر غالب هستند. WinCLIP به AUROC ۹۱.۸٪ و ۸۵.۱٪ در طبقهبندی و بخشبندی ناهنجاری صفر-شات (Zero-shot) روی MVTec-AD بدون هیچگونه تنظیم خاصِ مجموعه داده دست مییابد که با روشهای نظارتشده آموزشدیده روی آن مجموعه داده رقابت میکند.
- LLMهای منجمد در دادههای غیرمتنی با شکاف مدالیته مواجه میشوند. این بررسی صراحتاً خاطرنشان میکند که «فراخوانی مستقیم LLMهای منجمد برای نتایج تشخیص ناهنجاری یا OOD در انواع مختلف دادهها، به دلیل شکاف ذاتی مدالیته بین متن و سایر مدالیتههای داده، اغلب منجر به عملکرد پایینتر از حد بهینه میشود.»
- تنظیم LoRA و آداپتور بخش زیادی از این شکاف را جبران میکند. روشهایی مانند AnomalyGPT و AnomalyCLIP با تکنیکهای کارآمد از نظر پارامتر (Parameter-efficient) تنظیم دقیق میشوند و بهطور قابلتوجهی از همتایان منجمد خود بهتر عمل میکنند.
- تولید به عن وان ابزار تقویت داده کمتر از حد مورد استفاده قرار گرفته است. برچسبهای شبه-OOD در سطح کپشن تولید شده توسط BLIP-2 در تشخیص OOD بهتر از جایگزینهای در سطح کلمه و توضیحات عمل میکنند، که نشان میدهد نظارت متنی غنیتر حتی برای وظایف بصری نیز اهمیت دارد.
- تولید مبتنی بر توضیح، جدیدترین زیرمجموعه است. سیستمهایی مانند Holmes-VAD و VAD-LLaMA فراتر از پرچمهای باینری عمل کرده و منطقهای زبان طبیعی برای رویدادهای ناهنجار، عمدتاً در ویدئوهای نظارتی، تولید میکنند.
- دادههای جدولی تقریباً غایب هستند. این بررسی تنها به یک روش — "Tabular" توسط لی و همکاران (۲۰۲۴) — اشاره میکند که ردیفهای جدولی را به پرامپتهای متنی تبدیل کرده و با LoRA تنظیم دقیق میکند، اما هیچ آمار مقایسهای ارائه نمیدهد.
چه چیزی پابرجاست و چه چیزی نه
طبقهبندی دوکلاسی واقعاً تمیز است و احتمالاً از آن برای سازماندهی تفکر خودم استفاده خواهم کرد. تمایز تشخیص در برابر تولید، یک دوشاخه معماری واقعی را نشان میدهد: یا از LLM میخواهید مستقیماً طبقهبندی کند یا از آن برای ساخت سیگنال آموزشی بهتر برای یک تشخیصدهنده سنتی استفاده میکنید.
آنچه نمیتوانم بپذیرم، قاببندی مقاله به عنوان بررسی جامع تشخیص ناهنجاری بهطور کلی است. پوشش مطالب بهطور مفرط بر تصاویر نقصهای صنعتی (MVTec-AD, VisA) و ویدئوهای نظارتی (UCF-Crime, XD-Violence) متمرکز است. از حدود ۳۹ مقاله فهرست شده، تقریباً هیچکدام به دادههای جدولی یا مالی نمیپردازند. سریهای زمانی چند ارجاع دارند. دادههای جدولی تنها یک جمله سهم بردهاند. این یک نقشه چشمانداز برای Bean Labs نیست — این نقشهای برای محققان بینایی ماشین است که میخواهند از CLIP برای تشخیص نقص استفاده کنند.
نویسندگان اذعان میکنند که «محدودیت فضا مانع از خلاصههای دقیق معیارها شده است»، که راهی مودبانه برای گفتن این است که هیچ جدول مقایسهای وجود ندارد. برای یک مقاله مروری، نبود ترکیب کمی (Quantitative Synthesis) یک شکاف بزرگ است. خوانندگان نمیتوانند بدون پیگیری جداگانه تکتک مقالات ارجاع شده، تصمیم بگیرند کدام پارادایم برای مورد استفاده آنها بهتر است.
چالش توهم (Hallucination) به عنوان یک مسئله باز فهرست شده است، اما پرداختن به آن سطحی است — ریسک را نام میبرد بدون اینکه تحلیل کند کدام پارادایمهای تشخیص بیشتر یا کمتر مستعد هستند، یا اینکه چگونه تولید مبتنی بر توضیح ممکن است توهمات را از طریق بررسی انسانی قابل تشخیصتر کند.
چرا این برای هوش مصنوعی مالی مهم است
دو زیرمجموعه علیرغم پوشش سنگین تصویری، مرتبط هستند. اول، زیرمجموعه تولید مبتنی بر توضیح دقیقاً همان چیزی است که عوامل حسابرسی Beancount به آن نیاز دارند: نه فقط یک پرچم که نشان دهد یک ورودی دفتر کل ناهنجار است، بلکه یک جمله به زبان طبیعی که دلیل آن را توضیح دهد. حسابرسان مالی نمیتوانند بر اساس یک خروجی باینری عمل کنند. دوم، سکوت تقریباً کامل بررسی درباره تشخیص ناهنجاری جدولی خود آموزنده است — این تایید میکند که رشته مطالب AnoLLM، CausalTAD و AD-LLM که من دنبال کردهام، یک حوزه پیشرو است نه یک مسیر پرتردد، و طراحی ابزارهای حسابرسی مبتنی بر LLM برای دفاتر کل Beancount مستلزم ترکیب بینشهایی از تشخیص ناهنجاری بینایی است که هنوز به محیطهای جدولی منتقل نشدهاند.
توازن بین پرامپتنویسی و تنظیم دقیق (Prompting-vs-tuning) کاربردی ترین یافته است: پرامپتنویسی صفر-شات به عنوان یک تخمین اولیه کار میکند اما از شکاف مدالیته رنج میبرد؛ تنظیم دقیق مبتنی بر LoRA روی مثالهای برچسبدار معرف، این شکاف را میبندد. برای استقرار Beancount با مثالهای ناهنجاری برچسبدار از دفاتر کل تاریخی، مسیر تنظیم دقیق قابلاعتمادتر از پرامپتنویسی محض به نظر میرسد.
چه چیزی را بعداً بخوانیم
- "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — از جاسازیهای Sentence-transformer مدل زبانی روی ورودیهای واقعی دفتر کل استفاده میکند؛ پلی مستقیم از چارچوب این بررسی به مورد استفاده جدولی Beancount.
- "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — خط لوله چندعاملی برای تشخیص ناهنجاری دادههای بازار؛ الگوی هماهنگی چندعاملی ممکن است به حسابرسی دفتر کل نیز منتقل شود.
- AnomalyGPT (arXiv:2308.15366) — یک LVLM تنظیمشده برای تشخیص ناهنجاری صنعتی با مکانیابی در سطح پیکسل؛ خواندن این مقاله روشن میکند که «تنظیم LLM برای تشخیص» از نظر معماری واقعاً به چه معناست، چیزی که بررسی حاضر توصیف کرده اما توضیح نمیدهد.
