Перейти к контенту

CausalTAD: каузальное упорядочивание столбцов для обнаружения аномалий в табличных данных с помощью LLM

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

В предыдущей записи рассматривался AnoLLM, который дообучает небольшую LLM для оценки аномалий в таблицах через отрицательное логарифмическое правдоподобие. CausalTAD (arXiv:2602.07798) задает важный уточняющий вопрос: имеет ли значение порядок, в котором вы подаете столбцы в эту LLM? Ответ, как выяснилось, положительный: внедрение каузальной структуры в упорядочивание дает стабильный и воспроизводимый прирост производительности.

О статье

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

Ванг и др. предлагают CausalTAD — метод, который надстраивается над детекторами аномалий типа AnoLLM и вносит одно целевое изменение: вместо сериализации строк таблицы в случайном или произвольном порядке столбцов, он обнаруживает каузальные (причинно-следственные) зависимости между ними и переупорядочивает их с учетом этих зависимостей перед тем, как LLM прочтет строку.

Работа состоит из двух функциональных частей. Первая — модуль каузального упорядочивания столбцов. Авторы адаптируют фреймворк извлечения факторов COAT: LLM считывает метаданные столбцов и образцы данных для извлечения семантических факторов высокого уровня (например, для транзакций по кредитным картам фактор «Компенсация» может объединять столбцы суммы и продавца). На основе этих факторов три алгоритма каузального обнаружения — PC, LiNGAM и FCI — строят ориентированные графы причинности. Проблема переупорядочивания столбцов превращается в задачу линейного упорядочивания: найти перестановку π, максимизирующую сумму весов ориентированных ребер так, чтобы столбцы-причины шли перед столбцами-следствиями в сериализованном тексте. Поскольку задача линейного программирования имеет много близких к оптимальным решений, они выбирают K ≈ 10 вариантов упорядочивания в пределах 90% от оптимума и усредняют результат.

Вторая часть — модуль перевзвешивания с учетом каузальности. Не все столбцы одинаково важны. Столбец, влияющий на множество факторов, получает более высокий вес αj = |M⁻¹(cj)|, соответствующий количеству факторов, в которые он вносит вклад. Итоговая оценка аномальности — это средневзвешенное значение отрицательных логарифмических правдоподобий по столбцам для K вариантов упорядочивания.

Основные идеи

  • Порядок столбцов — это нетривиальное индуктивное смещение для авторегрессионных LLM: размещение столбца-причины перед столбцом-следствием позволяет модели опираться на правильный контекст при присвоении правдоподобия следствию.
  • Каузальное обнаружение на уровне факторов (а не на уровне исходных столбцов) позволяет методу обрабатывать таблицы смешанного типа, где прямое каузальное обнаружение между разнородными столбцами затруднено из-за шума.
  • На 6 бенчмарках со смешанными типами данных CausalTAD с использованием SmolLM-135M достигает среднего AUC-ROC 0,834 против 0,803 у AnoLLM — абсолютное улучшение на 3,1 пункта при использовании той же базовой модели.
  • В частности, на датасете Fake Job Posts CausalTAD показывает результат 0,873 против 0,800 у AnoLLM — относительный прирост 9,1%, что достаточно существенно для реальных систем сортировки данных.
  • В 30 числовых бенчмарках ODDS CausalTAD достигает лучшего среднего AUC-ROC, стабильно превосходя классические базовые решения (Isolation Forest, ECOD, KNN) и глубокие методы (DeepSVDD, SLAD).
  • Все три алгоритма каузального обнаружения превзошли случайное упорядочивание в абляционном исследовании; LiNGAM незначительно опередил PC и FCI на наборах данных смешанного типа.

Что подтверждается, а что — нет

Основное утверждение — о том, что каузальный порядок столбцов помогает — хорошо обосновано. Абляционное исследование проведено чисто: замена случайного порядка любым из трех методов каузального обнаружения улучшает результаты в бенчмарке Fake Job Posts (с 0,832 до 0,870–0,873), а перевзвешивание по количеству факторов дает дополнительный прирост в каждой конфигурации. Это выглядит убедительно.

Менее убедительным мне кажется предположение о самозагрузке (bootstrapping). Каузальный граф строится с использованием LLM для извлечения семантических факторов из тех самых данных, которые система должна анализировать. Если LLM неверно поймет предметную область — скажем, специфическую систему учета с нестандартными именами столбцов — извлечение факторов будет ошибочным, а плохой каузальный граф, пожалуй, хуже случайного порядка, так как вносит систематическую ошибку. Авторы признают этот риск («зависит от способности LLM извлекать факторы»), но не тестируют точность извлечения факторов отдельно.

Также существует проблема вычислительных затрат, которая серьезнее, чем представлено в статье. Запуск трех алгоритмов каузального обнаружения, решение задачи линейного программирования, выборка K вариантов порядка и последующий инференс на K сериализованных версиях каждой тестовой точки умножает стоимость инференса на K. Для бухгалтерской книги с миллионами записей это критично. В статье отмечается, что «будущая работа может быть сосредоточена на повышении эффективности», но конкретных профилей производительности не приводится.

Наконец, 30 числовых датасетов ODDS хорошо изучены и, возможно, уже исчерпаны для подобных методов. Более значимый сигнал дают 6 датасетов смешанного типа — они более реалистичны для финансов — и улучшения там, хотя и реальные, в абсолютном выражении выглядят умеренными.

Почему это важно для ИИ в финансах

Транзакции Beancount обладают подлинной каузальной структурой: сумма проводки каузально определяет выбор счета, счет определяет ожидания по контрагенту, а текст примечания каузально зависит от всех трех факторов. Случайная сериализация столбцов игнорирует это, а значит, модель типа AnoLLM видит вариант «memo: groceries | account: Expenses:Food | amount: $4200» так же часто, как и правильно упорядоченную версию.

CausalTAD предлагает принципиальный способ кодирования правила «сумма и счет идут первыми» без жесткого прописывания его в коде. Для аудиторских агентов Bean Labs это предполагает практический архитектурный выбор: перед оценкой пакета транзакций на наличие аномалий выполнить один проход для поиска каузального графа по схеме столбцов книги, а затем использовать этот фиксированный порядок для всех последующих выводов. Затраты на вычисления оплачиваются один раз на уровне схемы, а не за каждую транзакцию.

Пример обнаружения мошенничества с кредитными картами в статье по структуре задачи идентичен поиску аномалий в бухгалтерских книгах: разнородные признаки, редкие метки и каузальный порядок, который эксперты в предметной области знают интуитивно, но который LLM без подсказки могут проигнорировать.

Что почитать дальше

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — систематический бенчмарк по трем парадигмам обнаружения аномалий с помощью LLM, в который вписывается CausalTAD; дает полную картину вместо сравнения только AnoLLM и CausalTAD.
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — фреймворк извлечения факторов, адаптированный в CausalTAD; понимание его работы проясняет, в каких моментах качество каузального графа может пострадать.
  • Causal discovery in heterogeneous data: a survey — для понимания относительных преимуществ PC, LiNGAM и FCI при работе с табличными данными смешанного типа, поскольку в статье они рассматриваются как взаимозаменяемые, хотя делают разные предположения о независимости.