پرش به محتوای اصلی

CausalTAD: ترتیب‌بندی علّی ستون‌ها برای تشخیص ناهنجاری جدولی در مدل‌های زبانی بزرگ

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

در گزارش قبلی به AnoLLM پرداختیم که یک مدل زبانی بزرگ (LLM) کوچک را برای امتیازدهی به ناهنجاری‌های جدولی از طریق احتمال لگاریتمی منفی تنظیم دقیق می‌کند. CausalTAD (arXiv:2602.07798) یک سؤال پیگیرانه دقیق می‌پرسد: آیا ترتیبی که ستون‌ها را به آن LLM می‌دهید اهمیت دارد؟ پاسخ مشخص شد که بله است — و تزریق ساختار علّی به ترتیب‌بندی، به شما یک بهبود مداوم و قابل تکرار می‌دهد.

مقاله

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

وانگ و همکاران CausalTAD را پیشنهاد می‌کنند، روشی که بر روی تشخیص‌دهنده‌های ناهنجاری LLM به سبک AnoLLM قرار می‌گیرد و یک تغییر هدفمند ایجاد می‌کند: به جای سریال‌سازی ردیف‌های جدولی با ترتیب ستونی تصادفی یا دلخواه، وابستگی‌های علّی بین ستون‌ها را کشف کرده و قبل از اینکه LLM ردیف را بخواند، آن‌ها را برای رعایت آن وابستگی‌ها بازآرایی می‌کند.

این مقاله دارای دو بخش متحرک است. اول، یک ماژول ترتیب‌بندی ستون مبتنی بر علّیت. نویسندگان چارچوب استخراج عامل COAT را تطبیق می‌دهند: یک LLM متادیتای ستون‌ها و نمونه‌ها را می‌خواند تا عامل‌های معنایی سطح بالا را استخراج کند (برای تراکنش‌های کارت اعتباری، عاملی مانند "جبران خدمات" ممکن است ستون‌های مبلغ و پذیرنده را در بر بگیرد). از این عوامل، سه الگوریتم کشف علّی — PC، LiNGAM و FCI — هر کدام یک گراف علّی جهت‌دار روی عوامل می‌سازند. سپس مسئله بازآرایی ستون‌ها به یک "مسئله ترتیب‌بندی خطی" (Linear Ordering Problem) تبدیل می‌شود: یافتن جایگشت π که مجموع وزن‌های لبه‌های جهت‌دار را به حداکثر برساند، به طوری که ستون‌های "علت" قبل از ستون‌های "معلول" در متن سریال‌سازی شده ظاهر شوند. از آنجایی که LP دارای بسیاری از راه حل‌های نزدیک به بهینه است، آن‌ها K ≈ ۱۰ ترتیب را در محدوده ۹۰٪ بهینه نمونه‌برداری کرده و میانگین آن‌ها را محاسبه می‌کنند.

دوم، یک ماژول وزن‌دهی مجدد آگاه از علّیت. همه ستون‌ها به یک اندازه مرتبط نیستند. ستونی که بر بسیاری از عوامل تأثیر می‌گذارد، وزن بالاتری دریافت می‌کند: αj = |M⁻¹(cj)|، یعنی تعداد عواملی که در آن‌ها مشارکت دارد. امتیاز نهایی ناهنجاری، میانگین وزنی احتمالات لگاریتمی منفی به ازای هر ستون در K ترتیب است.

ایده‌های کلیدی

  • ترتیب ستون‌ها یک تورش استقرایی (inductive bias) غیرقابل چشم‌پوشی برای LLMهای خودرگرسیونی است: قرار دادن ستون "علت" قبل از ستون "معلول" به مدل اجازه می‌دهد هنگام تخصیص احتمال به معلول، روی زمینه (context) صحیح شرط‌بندی کند.
  • کشف علّی در سطح عامل (به جای سطح ستون خام) به متد اجازه می‌دهد تا جداول با انواع مختلط را مدیریت کند، جایی که کشف علّی مستقیم بین ستون‌های ناهمگون نویز زیادی دارد.
  • در ۶ مجموعه داده معیار با نوع مختلط، CausalTAD با SmolLM-135M به میانگین AUC-ROC ۰.۸۳۴ در مقابل ۰.۸۰۳ در AnoLLM می‌رسد — یک بهبود مطلق ۳.۱ واحدی با همان مدل پایه.
  • به طور خاص در مجموعه داده Fake Job Posts، امتیاز CausalTAD برابر ۰.۸۷۳ در مقابل ۰.۸۰۰ در AnoLLM است — یک افزایش نسبی ۹.۱ درصدی که به اندازه کافی بزرگ است تا در یک سیستم غربالگری واقعی اهمیت داشته باشد.
  • در ۳۰ مجموعه داده معیار عددی ODDS، مدل CausalTAD به بهترین میانگین AUC-ROC دست می‌یابد و به طور مداوم از خط‌های پایه کلاسیک (Isolation Forest، ECOD، KNN) و روش‌های عمیق (DeepSVDD، SLAD) پیشی می‌گیرد.
  • هر سه الگوریتم کشف علّی در مطالعه حذفی (ablation) بر ترتیب‌بندی تصادفی غلبه کردند؛ LiNGAM در مجموعه‌های داده مختلط کمی بهتر از PC و FCI عمل کرد.

چه چیزی منطقی است — و چه چیزی نیست

ادعای اصلی — که ترتیب علّی ستون‌ها کمک می‌کند — به خوبی پشتیبانی می‌شود. مطالعه حذفی شفاف است: جایگزینی ترتیب تصادفی با هر یک از سه روش کشف علّی، نتایج را در معیار Fake Job Posts بهبود می‌بخشد (از ۰.۸۳۲ به ۰.۸۷۰–۰.۸۷۳)، و وزن‌دهی مجدد بر اساس تعداد عوامل در هر پیکربندی کمک بیشتری می‌کند. این یک روایت معتبر است.

چیزی که من کمتر متقاعدکننده می‌دانم، فرض بوت‌استرپینگ است. گراف علّی با استفاده از یک LLM برای استخراج عوامل معنایی از همان داده‌هایی ساخته می‌شود که سیستم قرار است تحلیل کند. اگر LLM دامنه را اشتباه درک کند — مثلاً برای یک سیستم حسابداری سفارشی با نام ستون‌های غیر استاندارد — استخراج عامل اشتباه خواهد بود، و یک گراف علّی بد مسلماً بدتر از ترتیب‌بندی تصادفی است زیرا یک تورش سیستماتیک ایجاد می‌کند. نویسندگان به این ریسک اعتراف می‌کنند ("به توانایی LLMها برای استخراج عوامل بستگی دارد") اما دقت استخراج عامل را به طور مستقل ارزیابی نمی‌کنند.

همچنین یک مسئله سربار محاسباتی وجود دارد که جدی‌تر از آن چیزی است که مقاله نشان می‌دهد. اجرای سه الگوریتم کشف علّی، حل یک LP، نمونه‌برداری از K ترتیب و سپس اجرای استنتاج روی K نسخه سریال‌سازی شده از هر نقطه تست، هزینه استنتاج را در K ضرب می‌کند. برای یک دفتر کل با میلیون‌ها ورودی، این موضوع اهمیت دارد. مقاله خاطرنشان می‌کند که "کارهای آینده ممکن است بر بهبود کارایی متمرکز شوند" اما هیچ پروفایل‌بندی بتنی ارائه نمی‌دهد.

در نهایت، ۳۰ مجموعه داده عددی ODDS به خوبی مطالعه شده‌اند و مسلماً برای روش‌هایی مانند این اشباع شده‌اند. سیگنال معنی‌دارتر در ۶ مجموعه داده نوع مختلط است — که برای امور مالی واقع‌گرایانه هستند — و بهبودها در آنجا، هرچند واقعی، از نظر مطلق تا حدودی متوسط هستند.

چرا این برای هوش مصنوعی مالی اهمیت دارد

تراکنش‌های Beancount دارای ساختار علّی واقعی هستند: مبلغ ثبت (posting amount) به طور علّی باعث انتخاب حساب می‌شود، حساب باعث انتظار طرف مقابل می‌شود و متن یادداشت (memo) از نظر علّی پایین‌دست هر سه قرار دارد. سریال‌سازی تصادفی ستون‌ها این را نادیده می‌گیرد، به این معنی که مدلی به سبک AnoLLM عبارت "یادداشت: خواربار | حساب: هزینه‌ها:غذا | مبلغ: ۴۲۰۰ دلار" را به همان راحتی نسخه با ترتیب صحیح می‌بیند.

CausalTAD راهی اصولی برای رمزگذاری "مبلغ و حساب اول می‌آیند" بدون کدنویسی سخت آن به عنوان یک قاعده ارائه می‌دهد. برای عوامل حسابرسی Bean Labs، این یک انتخاب معماری عملی را پیشنهاد می‌کند: قبل از امتیازدهی به دسته‌ای از تراکنش‌ها برای ناهنجاری، یک بار گراف علّی را روی شمای ستون‌های دفتر کل کشف کنید، سپس از آن ترتیب ثابت برای تمام استنتاج‌های بعدی استفاده کنید. سربار فقط یک بار در سطح شما پرداخت می‌شود، نه به ازای هر تراکنش.

مثال تشخیص تقلب کارت اعتباری در مقاله اساساً دارای همان ساختار وظیفه تشخیص ناهنجاری دفتر کل است: ویژگی‌های ناهمگون، برچسب‌های کمیاب و یک ترتیب علّی که متخصصان دامنه به طور شهودی می‌دانند اما LLMها در غیر این صورت آن را نادیده می‌گیرند.

مطالب پیشنهادی برای مطالعه

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — معیار سیستماتیک در سه پارادایم تشخیص ناهنجاری LLM که CausalTAD در آن جای می‌گیرد؛ خواندن آن به جای مقایسه تک‌بعدی AnoLLM و CausalTAD، چشم‌انداز کاملی را ارائه می‌دهد.
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — چارچوب استخراج عاملی که CausalTAD از آن اقتباس کرده است؛ درک نحوه عملکرد آن روشن می‌کند که کیفیت گراف علّی کجا می‌تواند با شکست مواجه شود.
  • Causal discovery in heterogeneous data: a survey — برای درک مزایای نسبی PC در مقابل LiNGAM در مقابل FCI روی داده‌های جدولی نوع مختلط، زیرا مقاله با هر سه به عنوان موارد قابل تعویض برخورد می‌کند اما آن‌ها فرض‌های استقلال متفاوتی دارند.