CausalTAD: Ordenação Causal de Colunas para Detecção de Anomalias Tabulares via LLM
O log anterior cobriu o AnoLLM, que faz o ajuste fino (fine-tuning) de um LLM pequeno para pontuar anomalias tabulares via log-verossimilhança negativa. O CausalTAD (arXiv:2602.07798) faz uma pergunta de acompanhamento perspicaz: a ordem em que você fornece as colunas para esse LLM importa? A resposta, ao que parece, é sim — e injetar estrutura causal na ordenação proporciona um ganho consistente e reproduzível.
O artigo
Wang et al. propõem o CausalTAD, um método que se baseia em detectores de anomalias LLM no estilo AnoLLM e faz uma mudança direcionada: em vez de serializar linhas tabulares em ordem de coluna aleatória ou arbitrária, ele descobre dependências causais entre as colunas e as reordena para respeitar essas dependências antes que o LLM leia a linha.
O artigo tem duas partes móveis. Primeiro, um módulo de ordenação de colunas orientado por causalidade. Os autores adaptam o framework de extração de fatores COAT: um LLM lê metadados de colunas e amostras para extrair fatores semânticos de alto nível (para transações de cartão de crédito, um fator como "Compensação" pode abranger as colunas de valor e comerciante). A partir desses fatores, três algoritmos de descoberta causal — PC, LiNGAM e FCI — constroem, cada um, um grafo causal direcionado sobre os fatores. O problema de reordenação de colunas torna-se então um Problema de Ordenação Linear: encontrar a permutação π que maximiza a soma dos pesos das arestas direcionadas, para que as colunas de causa apareçam antes das colunas de efeito no texto serializado. Como o PL tem muitas soluções quase ótimas, eles amostram K ≈ 10 ordenações dentro de 90% do ideal e fazem a média delas.
Segundo, um módulo de reponderação consciente da causalidade. Nem todas as colunas são igualmente relevantes. Uma coluna que influencia muitos fatores recebe um peso maior αj = |M⁻¹(cj)|, a contagem de fatores para os quais ela contribui. A pontuação final de anomalia é a média ponderada das log-verossimilhanças negativas por coluna nas K ordenações.
Ideias principais
- A ordenação de colunas é um viés indutivo não trivial para LLMs autorregressivos: colocar uma coluna de causa antes de sua coluna de efeito permite que o modelo se condicione ao contexto correto ao atribuir verossimilhança ao efeito.
- A descoberta causal no nível do fator (em vez do nível da coluna bruta) permite que o método lide com tabelas de tipos mistos, onde a descoberta causal direta entre colunas heterogêneas é ruidosa.
- Em 6 conjuntos de dados de benchmark de tipos mistos, o CausalTAD com SmolLM-135M atinge uma AUC-ROC média de 0,834 contra 0,803 do AnoLLM — uma melhoria absoluta de 3,1 pontos com o mesmo modelo base.
- Especificamente no conjunto de dados Fake Job Posts, o CausalTAD pontua 0,873 contra 0,800 do AnoLLM — um ganho relativo de 9,1%, o que é grande o suficiente para importar em um sistema de triagem real.
- Em 30 conjuntos de dados de benchmark ODDS numéricos, o CausalTAD alcança a melhor AUC-ROC média, superando consistentemente os baselines clássicos (Isolation Forest, ECOD, KNN) e métodos profundos (DeepSVDD, SLAD).
- Todos os três algoritmos de descoberta causal superam a ordenação aleatória na ablação; o LiNGAM supera ligeiramente o PC e o FCI nos conjuntos de dados mistos.
O que se sustenta — e o que não
A afirmação central — de que a ordem causal das colunas ajuda — é bem fundamentada. A ablação é clara: trocar a ordenação aleatória por qualquer um dos três métodos de descoberta causal melhora os resultados no benchmark Fake Job Posts (de 0,832 para 0,870–0,873), e a reponderação por contagem de fatores ajuda ainda mais em todas as configurações. Essa é uma história credível.
O que considero menos convincente é a suposição de bootstrapping. O grafo causal é construído usando um LLM para extrair fatores semânticos dos mesmos dados que o sistema deve analisar. Se o LLM interpretar mal o domínio — por exemplo, para um sistema contábil personalizado com nomes de colunas não padronizados — a extração de fatores estará errada, e um grafo causal ruim é possivelmente pior do que uma ordenação aleatória, pois introduz um viés sistemático. Os autores reconhecem esse risco ("depende da capacidade dos LLMs para extração de fatores"), mas não avaliam a precisão da extração de fatores de forma independente.
Há também uma questão de sobrecarga computacional que é mais séria do que o artigo sugere. Executar três algoritmos de descoberta causal, resolver um PL, amostrar K ordenações e depois executar a inferência em K versões serializadas de cada ponto de teste multiplica o custo de inferência por K. Para um livro contábil (ledger) com milhões de entradas, isso importa. O artigo observa que "trabalhos futuros podem se concentrar em melhorar a eficiência", mas não oferece um perfil de desempenho concreto.
Finalmente, os 30 conjuntos de dados ODDS numéricos são bem estudados e possivelmente saturados para métodos como este. O sinal mais significativo está nos 6 conjuntos de dados de tipos mistos — que são os realistas para finanças — e as melhorias neles, embora reais, são um tanto modestas em termos absolutos.
Por que isso importa para a IA nas finanças
As transações do Beancount possuem uma estrutura causal genuína: o valor do lançamento (amount) impulsiona causalmente a seleção da conta, a conta impulsiona a expectativa da contraparte, e o texto do histórico (memo) está causalmente a jusante de todos os três. A serialização aleatória de colunas ignora isso, o que significa que um modelo no estilo AnoLLM vê "memo: compras | account: Expenses:Food | amount: $4200" tão livremente quanto a versão corretamente ordenada.
O CausalTAD oferece uma maneira fundamentada de codificar que "valor e conta vêm primeiro" sem codificar isso rigidamente como uma regra. Para os agentes de auditoria do Bean Labs, isso sugere uma escolha arquitetônica prática: antes de pontuar um lote de transações em busca de anomalias, faça uma passagem descobrindo o grafo causal sobre o esquema de colunas do ledger e, em seguida, use essa ordenação fixa para todas as inferências subsequentes. A sobrecarga é paga uma vez no nível do esquema, não por transação.
O exemplo de detecção de fraude de cartão de crédito no artigo tem essencialmente a mesma estrutura de tarefa que a detecção de anomalias em livros contábeis: recursos heterogêneos, rótulos raros e uma ordem causal que os especialistas do domínio conhecem intuitivamente, mas que os LLMs ignorariam de outra forma.
O que ler a seguir
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — o benchmark sistemático abrangendo três paradigmas de detecção de anomalias por LLM nos quais o CausalTAD se encaixa; lê-lo oferece a visão completa em vez da comparação isolada entre AnoLLM e CausalTAD.
- COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — o framework de extração de fatores que o CausalTAD adapta; entender como ele funciona esclarece onde a qualidade do grafo causal pode falhar.
- Causal discovery in heterogeneous data: a survey — para entender os méritos relativos de PC vs LiNGAM vs FCI em dados tabulares de tipos mistos, já que o artigo trata os três como intercambiáveis, mas eles fazem diferentes suposições de independência.
