CausalTAD: ترتیببندی علّی ستونها برای تشخیص ناهنجاری جدولی در مدلهای زبانی بزرگ
در گزارش قبلی به AnoLLM پرداختیم که یک مدل زبانی بزرگ (LLM) کوچک را برای امتیازدهی به ناهنجاریهای جدولی از طریق احتمال لگاریتمی منفی تنظیم دقیق میکند. CausalTAD (arXiv:2602.07798) یک سؤال پیگیرانه دقیق میپرسد: آیا ترتیبی که ستونها را به آن LLM میدهید اهمیت دارد؟ پاسخ مشخص شد که بله است — و تزریق ساختار علّی به ترتیببندی، به شما یک بهبود مداوم و قابل تکرار میدهد.
مقاله
وانگ و همکاران CausalTAD را پیشنهاد میکنند، روشی که بر روی تشخیصدهندههای ناهنجاری LLM به سبک AnoLLM قرار میگیرد و یک تغییر هدفمند ایجاد میکند: به جای سریالسازی ردیفهای جدولی با ترتیب ستونی تصادفی یا دلخواه، وابستگیهای علّی بین ستونها را کشف کرده و قبل از اینکه LLM ردیف را بخواند، آنها را برای رعایت آن وابستگیها بازآرایی میکند.
این مقاله دارای دو بخش متحرک است. اول، یک ماژول ترتیببندی ستون مبتنی بر علّیت. نویسندگان چارچوب استخراج عامل COAT را تطبیق میدهند: یک LLM متادیتای ستونها و نمونهها را میخواند تا عاملهای معنایی سطح بالا را استخراج کند (برای تراکنشهای کارت اعتباری، عاملی مانند "جبران خدمات" ممکن است ستونهای مبلغ و پذیرنده را در بر بگیرد). از این عوامل، سه الگوریتم کشف علّی — PC، LiNGAM و FCI — هر کدام یک گراف علّی جهتدار روی عوامل میسازند. سپس مسئله بازآرایی ستونها به یک "مسئله ترتیببندی خطی" (Linear Ordering Problem) تبدیل میشود: یافتن جایگشت π که مجموع وزنهای لبههای جهتدار را به حداکثر برساند، به طوری که ستونهای "علت" قبل از ستونهای "معلول" در متن سریالسازی شده ظاهر شوند. از آنجایی که LP دارای بسیاری از راه حلهای نزدیک به بهینه است، آنها K ≈ ۱۰ ترتیب را در محدوده ۹۰٪ بهینه نمونهبرداری کرده و میانگین آنها را محاسبه میکنند.
دوم، یک ماژول وزندهی مجدد آگاه از علّیت. همه ستونها به یک اندازه مرتبط نیستند. ستونی که بر بسیاری از عوامل تأثیر میگذارد، وزن بالاتری دریافت میکند: αj = |M⁻¹(cj)|، یعنی تعداد عواملی که در آنها مشارکت دارد. امتیاز نهایی ناهنجاری، میانگین وزنی احتمالات لگاریتمی منفی به ازای هر ستون در K ترتیب است.
ایدههای کلیدی
- ترتیب ستونها یک تورش استقرایی (inductive bias) غیرقابل چشمپوشی برای LLMهای خودرگرسیونی است: قرار دادن ستون "علت" قبل از ستون "معلول" به مدل اجازه میدهد هنگام تخصیص احتمال به معلول، روی زمینه (context) صحیح شرطبندی کند.
- کشف علّی در سطح عامل (به جای سطح ستون خام) به متد اجازه میدهد تا جداول با انواع مختلط را مدیریت کند، جایی که کشف علّی مستقیم بین ستونهای ناهمگون نویز زیادی دارد.
- در ۶ مجموعه داده معیار با نوع مختلط، CausalTAD با SmolLM-135M به میانگین AUC-ROC ۰.۸۳۴ در مقابل ۰.۸۰۳ در AnoLLM میرسد — یک بهبود مطلق ۳.۱ واحدی با همان مدل پایه.
- به طور خاص در مجموعه داده Fake Job Posts، امتیاز CausalTAD برابر ۰.۸۷۳ در مقابل ۰.۸۰۰ در AnoLLM است — یک افزایش نسبی ۹.۱ درصدی که به اندازه کافی بزرگ است تا در یک سیستم غربالگری واقعی اهمیت داشته باشد.
- در ۳۰ مجموعه داده معیار عددی ODDS، مدل CausalTAD به بهترین میانگین AUC-ROC دست مییابد و به طور مداوم از خطهای پایه کلاسیک (Isolation Forest، ECOD، KNN) و روشهای عمیق (DeepSVDD، SLAD) پیشی میگیرد.
- هر سه الگوریتم کشف علّی در مطالعه حذفی (ablation) بر ترتیببندی تصادفی غلبه کردند؛ LiNGAM در مجموعههای داده مختلط کمی بهتر از PC و FCI عمل کرد.
چه چیزی منطقی است — و چه چیزی نیست
ادعای اصلی — که ترتیب علّی ستونها کمک میکند — به خوبی پشتیبانی میشود. مطالعه حذفی شفاف است: جایگزینی ترتیب تصادفی با هر یک از سه روش کشف علّی، نتایج را در معیار Fake Job Posts بهبود میبخشد (از ۰.۸۳۲ به ۰.۸۷۰–۰.۸۷۳)، و وزندهی مجدد بر اساس تعداد عوامل در هر پیکربندی کمک بیشتری میکند. این یک روایت معتبر است.
چیزی که من کمتر متقاعدکننده میدانم، فرض بوتاسترپینگ است. گراف علّی با استفاده از یک LLM برای استخراج عوامل معن ایی از همان دادههایی ساخته میشود که سیستم قرار است تحلیل کند. اگر LLM دامنه را اشتباه درک کند — مثلاً برای یک سیستم حسابداری سفارشی با نام ستونهای غیر استاندارد — استخراج عامل اشتباه خواهد بود، و یک گراف علّی بد مسلماً بدتر از ترتیببندی تصادفی است زیرا یک تورش سیستماتیک ایجاد میکند. نویسندگان به این ریسک اعتراف میکنند ("به توانایی LLMها برای استخراج عوامل بستگی دارد") اما دقت استخراج عامل را به طور مستقل ارزیابی نمیکنند.
همچنین یک مسئله سربار محاسباتی وجود دارد که جدیتر از آن چیزی است که مقاله نشان میدهد. اجرای سه الگوریتم کشف علّی، حل یک LP، نمونهبرداری از K ترتیب و سپس اجرای استنتاج روی K نسخه سریالسازی شده از هر نقطه تست، هزینه استنتاج را در K ضرب میکند. برای یک دفتر کل با میلیونها ورودی، این موضوع اهمیت دارد. مقاله خاطرنشان میکند که "کارهای آینده ممکن است بر بهبود کارایی متمرکز شوند" اما هیچ پروفایلبندی بتنی ارائه نمیدهد.
در نهایت، ۳۰ مجموعه داده عددی ODDS به خوبی مطالعه شدهاند و مسلماً برای روشهایی مانند این اشباع شدهاند. سیگنال معنیدارتر در ۶ مجموعه داده نوع مختلط است — که برای امور مالی واقعگرایانه هستند — و بهبودها در آنجا، هرچند واقعی، از نظر مطلق تا حدودی متوسط هس تند.
چرا این برای هوش مصنوعی مالی اهمیت دارد
تراکنشهای Beancount دارای ساختار علّی واقعی هستند: مبلغ ثبت (posting amount) به طور علّی باعث انتخاب حساب میشود، حساب باعث انتظار طرف مقابل میشود و متن یادداشت (memo) از نظر علّی پاییندست هر سه قرار دارد. سریالسازی تصادفی ستونها این را نادیده میگیرد، به این معنی که مدلی به سبک AnoLLM عبارت "یادداشت: خواربار | حساب: هزینهها:غذا | مبلغ: ۴۲۰۰ دلار" را به همان راحتی نسخه با ترتیب صحیح میبیند.
CausalTAD راهی اصولی برای رمزگذاری "مبلغ و حساب اول میآیند" بدون کدنویسی سخت آن به عنوان یک قاعده ارائه میدهد. برای عوامل حسابرسی Bean Labs، این یک انتخاب معماری عملی را پیشنهاد میکند: قبل از امتیازدهی به دستهای از تراکنشها برای ناهنجاری، یک بار گراف علّی را روی شمای ستونهای دفتر کل کشف کنید، سپس از آن ترتیب ثابت برای تمام استنتاجهای بعدی استفاده کنید. سربار فقط یک بار در سطح شما پرداخت میشود، نه به ازای هر تراکنش.
مثال تشخیص تقلب کارت اعتباری در مقاله اساساً دارای همان ساختار وظیفه تشخیص ناهنجاری دفتر کل است: ویژگیهای ناهمگون، برچسبهای کمیاب و یک ترتیب علّی که متخصصان دامنه به طور شهودی میدانند اما LLMها در غیر این صورت آن را نادیده میگیرند.
مطالب پیشنهادی برای مطالعه
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — معیار سیستماتیک در سه پارادایم تشخیص ناهنجاری LLM که CausalTAD در آن جای میگیرد؛ خواندن آن به جای مقایسه تکبعدی AnoLLM و CausalTAD، چشمانداز کاملی را ارائه میدهد.
- COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — چارچوب استخراج عاملی که CausalTAD از آن اقتباس کرده است؛ درک نحوه عملکرد آن روشن میکند که کیفیت گراف علّی کجا میتواند با شکست مواجه شود.
- Causal discovery in heterogeneous data: a survey — برای درک مزایای نسبی PC در مقابل LiNGAM در مقابل FCI روی دادههای جدولی نوع مختلط، زیرا مقاله با هر سه به عنوان موارد قابل تعویض برخورد میکند اما آنها فرضهای ا ستقلال متفاوتی دارند.
