CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM
У попередньому дописі розглядалася AnoLLM, яка тонко налаштовує невелику LLM для оцінювання аномалій у табличних даних за допомогою від’ємної логарифмічної правдоподібності. CausalTAD (arXiv:2602.07798) ставить влучне додаткове запитання: чи має значення порядок, у якому ви подаєте стовпці цій LLM? Відповідь, як з'ясувалося, — так, а впровадження каузальної структури в порядок подачі забезпечує стабільний та відтворюваний приріст результатів.
Стаття
Ванг та співавт. пропонують CausalTAD, метод, який працює поверх детекторів аномалій на базі LLM на кшталт AnoLLM і вносить одну цілеспрямовану зміну: замість серіалізації табличних рядків у довільному чи випадковому порядку стовпців, він виявляє каузальні залежності між стовпцями та перевпорядковує їх відповідно до цих залежностей перед тим, як LLM прочитає рядок.
Стаття складається з двох основних частин. По-перше, модуль впорядкування стовпців на основі каузальності. Автори адаптують фреймворк виділення факторів COAT: LLM зчитує метадані стовпців та вибірки для виділення високорівневих семантичних факторів (наприклад, для транзакцій за кредитними картками фактор «Компенсація» може охоплювати стовпці суми та продавця). На основі цих факторів три алгоритми каузального виявлення — PC, LiNGAM та FCI — будують спрямований каузальний граф факторів. Задача перевпорядкування стовпців стає задачею лінійного впорядкування: знайти перестановку π, яка максимізує суму ваг спрямованих ребер, щоб стовпці-причини йшли перед стовпцями-наслідками в серіалізованому тексті. Оскільки задача лінійного програмування має багато майже оптимальних розв’язків, вони вибирають K ≈ 10 варіантів упорядкування в межах 90% від оптимуму і усереднюють результати за ними.
По-друге, модуль перезважування з урахуванням каузальності. Не всі стовпці однаково важливі. Стовпець, який впливає на багато факторів, отримує більшу вагу αj = |M⁻¹(cj)| — кількість факторів, у які він робить внесок. Фінальна оцінка аномалії — це середньозважена величина від’ємних логарифмічних правдоподібностей для кожного стовпця за K варіантами впорядкування.
Ключові ідеї
- Впорядкування стовпців є нетривіальним індуктивним упередженням для авторегресійних LLM: розміщення стовпця-причини перед стовпцем-наслідком дозволяє моделі спиратися на правильний контекст при призначенні ймовірності наслідку.
- Каузальне виявлення на рівні факторів (а не на рівні сирих стовпців) дозволяє методу працювати з таблицями змішаного типу, де пряме каузальне виявлення між гетерогенними стовпцями є зашумленим.
- На 6 еталонних наборах даних змішаного типу CausalTAD зі SmolLM-135M досягає середнього AUC-ROC 0,834 проти 0,803 в AnoLLM — абсолютне покращення на 3,1 пункту з тією ж базовою моделлю.
- Зокрема, на наборі даних Fake Job Posts CausalTAD отримує 0,873 проти 0,800 в AnoLLM — відносний приріст у 9,1%, що є досить значним для реальних систем сортування.
- У 30 числових наборах даних ODDS CausalTAD демонструє найкращий середній AUC-ROC, стабільно випереджаючи класичні базові моделі (Isolation Forest, ECOD, KNN) та методи глибокого навчання (DeepSVDD, SLAD).
- Усі три алгоритми каузального виявлення перевершують випадкове впорядкування в абляційних дослідженнях; LiNGAM трохи випереджає PC та FCI на змішаних наборах даних.
Що підтверджується, а що — ні
Основне твердження про те, що каузальний порядок стовпців допомагає, добре обґрунтоване. Абляція проведена чітко: заміна випадкового впорядкування будь-яким із трьох методів каузального виявлення покращує результати на тесті Fake Job Posts (з 0,832 до 0,870–0,873), а перезважування за кількістю факторів додатково допомагає в кожній конфігурації. Це виглядає переконливо.
Менш переконливим мені здається припущення про бутстрепінг. Каузальний граф будується за допомогою LLM, яка виділяє семантичні фактори з тих самих даних, які система має аналізувати. Якщо LLM неправильно зрозуміє предметну область — наприклад, для специфічної бухгалтерської системи з нестандартними назвами стовпців — виділення факторів буде помилковим, а поганий каузальний граф, мабуть, гірший за випадкове впорядкування, оскільки він вносить систематичне упередження. Автори визнають цей ризик («покладається на здатність LLM до виділення факторів»), але не оцінюють точність виділення факторів незалежно.
Також існує проблема обчислювальних витрат, яка є серйознішою, ніж стверджується у статті. Запуск трьох алгоритмів каузального виявлення, розв’язання задачі лінійного програмування, вибірка K варіантів упорядкування, а потім виконання інференсу для K серіалізованих версій кожної тестової точки збільшує вартість інференсу в K разів. Для реєстру з мільйонами записів це має значення. У статті зазначається, що «майбутня робота може бути зосереджена на підвищенні ефективності», але не пропонується конкретного профілювання.
Нарешті, 30 числових наборів даних ODDS добре вивчені і, можливо, вже вичерпані для подібних методів. Більш значущим є сигнал у 6 наборах даних змішаного типу — які є реалістичними для фінансів — і покращення там, хоч і реальні, є дещо скромними в абсолютному вираженні.
Чому це важливо для фінансового ШІ
Транзакції Beancount мають справжню каузальну структуру: сума проводки каузально визначає вибір рахунку, рахунок визначає очікування щодо контрагента, а текст примітки каузально залежить від усіх трьох факторів. Випадкова серіалізація стовпців ігнорує це, що означає, що модель на кшталт AnoLLM сприймає «memo: groceries | account: Expenses:Food | amount: $4200» так само легко, як і правильно впорядковану версію.
CausalTAD пропонує принциповий спосіб закодувати правило «спочатку сума та рахунок» без жорсткого програмування. Для аудиторських агентів Bean Labs це вказує на практичний архітектурний вибір: перед оцінюванням пакету транзакцій на аномалії виконати один прохід для виявлення каузального графа схеми стовпців реєстру, а потім використовувати цей фіксований порядок для всіх наступних висновків. Витрати оплачуються один раз на рівні схеми, а не для кожної транзакції.
Приклад із виявленням шахрайства з кредитними картками у статті має по суті таку ж структуру завдань, як і виявлення аномалій у реєстрах: гетерогенні ознаки, рідкісні мітки та каузальний порядок, який експерти в даній галузі знають інтуїтивно, але який LLM інакше б ігнорували.
Що прочитати далі
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — систематичний тест трьох парадигм виявлення аномалій за допомогою LLM, у які вписується CausalTAD; його вивчення дає повну картину, а не лише порівняння AnoLLM та CausalTAD.
- COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — фреймворк виділення факторів, який адаптує CausalTAD; розуміння його роботи прояснює, де якість каузального графа може погіршитися.
- Causal discovery in heterogeneous data: a survey — для розуміння відносних переваг PC, LiNGAM та FCI на табличних даних змішаного типу, оскільки у статті всі три розглядаються як взаємозамінні, хоча вони роблять різні припущення щодо незалежності.
