跳到主要内容

CausalTAD:用于大语言模型表格异常检测的因果列排序

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

之前的日志介绍了 AnoLLM,它通过负对数似然对小型大语言模型进行微调,从而对表格异常进行评分。CausalTAD (arXiv:2602.07798) 提出了一个深刻的后续问题:向大语言模型输入列的顺序是否重要?结果表明,答案是肯定的——在排序中注入因果结构可以带来稳定且可复现的提升。

论文解读

2026-06-25-causaltad-causal-knowledge-llm-tabular-anomaly-detection

Wang 等人提出了 CausalTAD,这是一种建立在 AnoLLM 式大语言模型异常检测器之上的方法,并进行了一项针对性的改进:它不是以随机或任意的列顺序序列化表格行,而是在大语言模型读取行之前,发现列之间的因果依赖关系并按照这些依赖关系重新排序。

该论文包含两个核心部分。首先是因果驱动的列排序模块。作者改编了 COAT 因子提取框架:大语言模型读取列元数据和样本以提取高层语义因子(对于信用卡交易,一个像“补偿”这样的因子可能涵盖金额和商户列)。基于这些因子,PC、LiNGAM 和 FCI 这三种因果发现算法分别构建了因子上的有向因果图。随后,列重排问题转化为了线性排序问题(Linear Ordering Problem):寻找最大化有向边权重之和的排列 π,使得原因列在序列化文本中出现在结果列之前。由于该线性规划(LP)有许多近乎最优的解,他们在大约 90% 最优值范围内采样 K ≈ 10 种排序,并对其取平均值。

其次是因果感知的重加权模块。并非所有列都同等重要。影响多个因子的列会获得更高的权重 αj = |M⁻¹(cj)|,即它所贡献的因子数量。最终的异常评分是跨 K 种排序的每列负对数似然的加权平均值。

关键思想

  • 列排序是自回归大语言模型的一种非平凡归纳偏置:将原因列置于其结果列之前,可以让模型在为结果分配概率时参考正确的上下文。
  • 因子层面的因果发现(而非原始列层面)使该方法能够处理混合类型的表格,因为在异构列之间进行直接因果发现通常存在噪声。
  • 性能提升明显:在 6 个混合类型基准数据集上,使用 SmolLM-135M 的 CausalTAD 平均 AUC-ROC 达到 0.834,而 AnoLLM 为 0.803——在相同骨干模型下实现了 3.1 个百分点的绝对提升。
  • 特定领域的显著增益:特别是在 Fake Job Posts 数据集上,CausalTAD 的评分为 0.873,而 AnoLLM 为 0.800——实现了 9.1% 的相对增益,这在真实的分类系统中非常有意义。
  • 超越经典方法:在 30 个数值型 ODDS 基准数据集上,CausalTAD 取得了最佳的平均 AUC-ROC,一致优于传统的基准方法(Isolation Forest、ECOD、KNN)和深度学习方法(DeepSVDD、SLAD)。
  • 算法鲁棒性:在消融实验中,所有三种因果发现算法都优于随机排序;在混合数据集上,LiNGAM 略优于 PC 和 FCI。

哪些观点站得住脚,哪些站不住

核心主张——即因果列顺序有助于提升性能——得到了很好的支持。消融实验很清晰:在 Fake Job Posts 基准测试中,将随机排序替换为三种因果发现方法中的任何一种都能改善结果(从 0.832 提升至 0.870–0.873),并且因子计数重加权在每种配置下都进一步提供了帮助。这是一个可信的故事。

我觉得不那么有说服力的是其自举(bootstrapping)假设。因果图是利用大语言模型从系统待分析的数据中提取语义因子来构建的。如果大语言模型误解了该领域——例如,对于具有非标准列名的定制会计系统——因子提取将会出错,而一个错误的因果图可能比随机排序更糟,因为它引入了系统性偏置。作者承认了这一风险(“依赖于大语言模型提取因子的能力”),但并未独立基准测试因子提取的准确性。

此外,计算开销问题比论文暗示的更为严重。运行三种因果发现算法、求解线性规划、采样 K 种排序,然后对每个测试点的 K 个序列化版本进行推理,这使得推理成本增加了 K 倍。对于拥有数百万条目的账本来说,这非常关键。论文指出“未来的工作可能会专注于提高效率”,但未提供具体的性能分析。

最后,30 个数值型 ODDS 数据集已经被广泛研究,对于此类方法来说可能已经趋于饱和。更有意义的信号在于 6 个混合类型数据集——这些才是金融领域的现实场景——那里的改进虽然真实存在,但从绝对值来看相对有限。

为什么这对金融 AI 很重要

Beancount 交易具有真实的因果结构:过账金额因果性地驱动了账户选择,账户驱动了对交易对手的预期,而摘要文本在因果关系上处于这三者的下游。随机的列序列化忽略了这一点,这意味着 AnoLLM 式的模型看到“memo: groceries | account: Expenses:Food | amount: $4200”的可能性与看到正确排序版本的可能性一样大。

CausalTAD 提供了一种原则性的方法来编码“金额和账户先行”,而无需将其硬编码为规则。对于 Bean Labs 的审计代理来说,这建议了一个实用的架构选择:在对一批交易进行异常评分之前,先进行一次因果发现,找出账本列模式(schema)上的因果图,然后将该固定排序用于后续的所有推理。这样,开销仅在模式层面支付一次,而不是每笔交易支付一次。

论文中的信用卡欺诈检测示例在任务结构上与账本异常检测基本相同:异构特征、稀有标签,以及领域专家直观了解但大语言模型可能会忽略的因果顺序。

延伸阅读

  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) —— 这是 CausalTAD 所属的三种大语言模型异常检测范式的系统性基准测试;阅读它可以了解全景,而不仅仅是 AnoLLM 与 CausalTAD 的单一对比。
  • COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) —— 这是 CausalTAD 改编的因子提取框架;了解其工作原理可以明确因果图质量可能在何处失效。
  • Causal discovery in heterogeneous data: a survey —— 用于了解 PC、LiNGAM 和 FCI 在混合类型表格数据上的相对优缺点,因为论文将这三者视为可以互换,但它们做出了不同的独立性假设。