CausalTAD: Каузално подреждане на колони за откриване на аномалии в таблични данни чрез LLM
Предишният запис обхвана AnoLLM, който прецизира (fine-tune) малък LLM за оценка на аномалии в таблични данни чрез отрицателна логаритмична вероятност (negative log-likelihood). CausalTAD (arXiv:2602.07798) задава важен последващ въпрос: има ли значение редът, в който подавате колоните на този LLM? Отговорът се оказва „да“ — и вграждането на каузална структура в подредбата осигурява стабилно и възпроизводимо подобрение.
Статията
Wang и др. предлагат CausalTAD, метод, който надгражда LLM детектори на аномалии от типа на AnoLLM и прави една целенасочена промяна: вместо да сериализира табличните редове в случаен или произволен ред на колоните, той открива каузалните зависимости между тях и ги пренарежда така, че да се спазват тези зависимости, преди LLM да прочете реда.
Статията има две основни части. Първо, модул за подреждане на колони, воден от каузалност. Авторите адаптират рамката за извличане на фактори COAT: един LLM чете метаданните на колоните и примери от данните, за да извлече семантични фактори от високо ниво (например за транзакции с кредитни карти, фактор като „Възмездие“ може да обхваща колоните за сума и търговец). От тези фактори три алгоритъма за откриване на каузалност — PC, LiNGAM и FCI — изграждат насочен каузален граф върху факторите. Проблемът с пренареждането на колоните след това се превръща в Проблем на линейното подреждане (Linear Ordering Problem): намиране на пермутацията π, която максимизира сумата от теглата на насочените ребра, така че колоните-причини да се появяват преди колоните-следствия в сериализирания текст. Тъй като линейното програмиране (LP) има много близко-оптимални решения, те вземат извадка от K ≈ 10 подредби в рамките на 90% от оптимума и изчисляват средната стойност върху тях.
Второ, модул за претегляне, съобразен с каузалността. Не всички колони са еднакво уместни. Колона, която влияе на много фактори, получава по-високо тегло αj = |M⁻¹(cj)|, броят на факторите, за които тя допринася. Крайният резултат за аномалия е среднопретеглената стойност от отрицателните логаритмични вероятности за всяка колона в рамките на K-те подредби.
Основни идеи
- Подредбата на колоните е нетривиално индуктивно пристрастие (inductive bias) за авторегресивните LLM: поставянето на колоната-причина преди нейната колона-следствие позволява на модела да се обуслови върху правилния контекст, когато приписва вероятност на следствието.
- Откриването на каузалност на ниво фактори (а не на ниво сурови колони) позволява на метода да се справя с таблици със смесен тип данни, където директното откриване на каузалност между хетерогенни колони е зашумено.
- При 6 бенчмарк набора от данни със смесен тип, CausalTAD със SmolLM-135M достига сред ен AUC-ROC 0.834 срещу 0.803 за AnoLLM — абсолютно подобрение от 3.1 пункта със същия модел.
- По-конкретно при набора от данни Fake Job Posts, CausalTAD постига 0.873 срещу 0.800 за AnoLLM — относителен ръст от 9.1%, което е достатъчно значимо за реална система за триаж.
- В 30 числови ODDS бенчмарка, CausalTAD постига най-добрия среден AUC-ROC, като последователно превъзхожда класическите базови модели (Isolation Forest, ECOD, KNN) и дълбоките методи (DeepSVDD, SLAD).
- И трите алгоритъма за откриване на каузалност побеждават случайния ред при аблационния анализ; LiNGAM леко превъзхожда PC и FCI при наборите със смесени данни.
Какво издържа проверката — и какво не
Основното твърдение — че каузалният ред на колоните помага — е добре подкрепено. Аблационният анализ е ясен: замяната на случайния ред с който и да е от трите метода за каузално откриване подобрява резултатите в бенчмарка Fake Job Posts (от 0.832 до 0.870–0.873), а претеглянето според броя фактори допълнително помага във всяка конфигурация. Това е убедителна теза.
Това, което намирам за по-малко убедително, е хипотезата за самоорганизация (bootstrapping assumption). Каузалният граф се конструира чрез използване на LLM за извличане на семантични фактори от самите данни, които системата трябва да анализира. Ако LLM не разбере правилно домейна — например за специфична счетоводна система с нестандартни имена на колони — извличането на фактори ще бъде погрешно, а лошият каузален граф вероятно е по-лош от случайния ред, защото внася системно пристрастие. Авторите признават този риск („разчита на способностите на LLM за извличане на фактори“), но не тестват независимо точността на извличане на фактори.
Съществува и проблем с изчислителните разходи, който е по-сериозен, отколкото статията подсказва. Изпълнението на три алгоритъма за откриване на каузалност, решаването на LP, вземането на извадка от K подредби и след това извършването на инференция върху K сериализирани версии на всяка тестова точка умножава разходите за инференция по K. За счетоводна кн ига с милиони записи това има значение. Статията отбелязва, че „бъдещата работа може да се фокусира върху подобряване на ефективността“, но не предлага конкретен профил на производителността.
И накрая, 30-те числови ODDS набора от данни са добре проучени и вероятно наситени за методи като този. По-значимият сигнал е в 6-те набора със смесен тип данни — които са реалистичните за финансите — и подобренията там, макар и реални, са донякъде скромни в абсолютни изражения.
Защо това е важно за финансовия изкуствен интелект
Транзакциите в Beancount имат реална каузална структура: сумата на записа каузално определя избора на сметка, сметката определя очакванията за контрагента, а текстът на основанието (мемо) е каузално следствие и от трите. Случайната сериализация на колоните пренебрегва това, кое то означава, че модел от типа на AnoLLM вижда „memo: groceries | account: Expenses:Food | amount: $4200“ толкова лесно, колкото и правилно подредената версия.
CausalTAD дава принципен начин за кодиране на правилото „сумата и сметката са на първо място“, без това да се задава твърдо като правило. За одит агентите на Bean Labs това предполага практичен архитектурен избор: преди оценяване на пакет от транзакции за аномалии, направете едно преминаване за откриване на каузалния граф върху схемата на колоните в книгата, след което използвайте този фиксиран ред за цялата последваща инференция. Разходите се плащат веднъж на ниво схема, а не за всяка транзакция.
Примерът за откриване на измами с кредитни карти в статията има по същество същата структура на задачата като откриването на аномалии в счетоводни книги: хетерогенни характеристики, редки етикети и каузален ред, който експертите в домейна знаят интуитивно, но който LLM иначе биха пренебрегнали.