Detecção de Anomalias Zero-Shot com LLMs: Como o GPT-4 se Comporta em Dados Tabulares
O artigo AuditCopilot que li no mês passado comparou LLMs na detecção de fraudes em lançamentos contábeis através do ajuste fino em dados de anomalias rotulados. Fiquei curioso desde então se o prompting zero-shot poderia levar você até lá — sem necessidade de anomalias rotuladas, sem ajuste fino específico de domínio. Essa é exatamente a promessa de "Anomaly Detection of Tabular Data Using LLMs" de Li, Zhao, Qiu, Kloft, Smyth, Rudolph e Mandt (arXiv:2406.16308), um artigo de workshop de meados de 2024. O resultado principal — o GPT-4 igualando métodos clássicos transdutivos como o ECOD — parecia bom demais, então o li com atenção.
O artigo
A ideia central é o que os autores chamam de detecção de anomalias em "nível de lote" (batch-level). Em vez de ajustar um modelo em dados de treinamento e depois pontuar pontos de teste individualmente, você apresenta à LLM um lote de N linhas no momento da inferência e pede que ela identifique quais linhas são anômalas em relação às outras no mesmo lote. As anomalias são esparsas dentro de qualquer lote, então um modelo capaz o suficiente deve reconhecer implicitamente o padrão majoritário e sinalizar os desvios (outliers). Sem retreinamento, sem exemplos rotulados — apenas o conhecimento de mundo pré-treinado da LLM e o raciocínio em contexto.
Eles avaliam no benchmark ODDS de 32 conjuntos de dados, uma coleção padrão de problemas reais de detecção de anomalias tabulares. Devido aos limites da janela de contexto, eles limitam cada lote de avaliação a 150 linhas e 10 colunas. As características são serializadas uma dimensão por vez com o modelo "Data i is x_i." e a LLM é instruída a nomear os índices anômalos em cada dimensão separadamente; a pontuação final de anomalia de uma linha agrega quantas dimensões a sinalizaram.
Para modelos proprietários, eles testam zero-shot. Para modelos de código aberto (Llama2-7B, Llama2-70B, Mistral-7B), o desempenho zero-shot é fraco, então eles também propõem o ajuste fino em um conjunto de dados sintético de 5.000 lotes gerados a partir de misturas Gaussianas e distribuições categóricas — sem necessidade de rótulos de anomalias reais. As variantes ajustadas são chamadas de Llama2-AD e Mistral-AD.
Ideias-chave
- O GPT-4 zero-shot atinge uma média de 74,1 de AUROC em 32 conjuntos de dados ODDS, em comparação com os 75,5 do ECOD (a melhor linha de base clássica) e os 70,7 do KNN. O GPT-3.5 fica para trás com 68,3.
- O Llama2-7B zero-shot pontua apenas 51,1 — essencialmente aleatório — mas o ajuste fino em dados sintéticos o eleva para 60,0, um ganho de +8,9 pontos. O Mistral-7B melhora de 62,4 para 69,1 (+6,7 pontos).
- O enquadramento em "nível de lote" é a jogada conceitual interessante: a LLM atua como um estimador de densidade implícito sobre o lote, em vez de um discriminador treinado para separar classes.
- O ajuste fino utiliza LoRA apenas em dados sintéticos Gaussianos e categóricos — sem necessidade de anotações de anomalias reais. Essa é uma vantagem prática significativa se houver generalização.
- A análise de saída (parsing) é frágil para modelos de código aberto; os autores impõem restrições gramaticais e usam padrões regex para extrair índices de anomalias.
O que se sustenta — e o que não se sustenta
A cobertura do benchmark é o maior problema. O artigo compara com apenas duas linhas de base clássicas: KNN e ECOD. Isolation Forest, LOF, One-Class SVM e qualquer método de detecção de anomalias por deep learning estão completamente ausentes. O ECOD por acaso é uma linha de base forte no ODDS — mas o GPT-4 não o vence claramente (74,1 vs 75,5), nem o Mistral-AD (69,1). Contra um conjunto mais amplo de linhas de base, não é óbvio que o GPT-4 manteria sua posição.
O limite de 150 linhas / 10 colunas também é uma restrição séria que o artigo não aborda adequadamente. Livros contábeis reais têm milhares de transações e muitas outras características. Se a abordagem em nível de lote escala — ou se degrada porque as anomalias se tornam mais difíceis de distinguir em lotes maiores com padrões mais diversos — não foi testado.
Os números de variância são preocupantes. O GPT-3.5 no conjunto de dados breastw pontua 63,1 ± 34,4 de AUROC. Esse não é um método que você possa implantar quando uma única execução pode pontuar plausivelmente em qualquer lugar entre 30 e 98. O GPT-4 é mais consistente (98,7 ± 0,5 no breastw), mas mostra variância semelhante em outros conjuntos de dados.
A suposição de independência de características é outra falha. A LLM consulta cada dimensão de característica separadamente e agrega as pontuações. Ela não consegue raciocinar sobre padrões conjuntos de características — uma transação com uma combinação incomum de valor, contraparte e código de conta pode parecer normal em qualquer dimensão individual. Anomalias multidimensionais, que são reconhecidamente o tipo mais comum e economicamente significativo na contabilidade, não serão capturadas por essa abordagem sem um redesenho significativo.
A literatura posterior confirma essas preocupações. AnoLLM (ICLR 2025), da Amazon Science, adota uma abordagem diferente: em vez de solicitar índices de anomalia, ele ajusta uma LLM para modelar a distribuição dos dados e usa a verossimilhança negativa (negative log-likelihood) como a pontuação de anomalia, evitando totalmente o regime frágil de análise de saída. CausalTAD (arXiv:2602.07798, fevereiro de 2026) identifica outra lacuna compartilhada por este artigo e pelo AnoLLM: a ordem das colunas durante a serialização é aleatória, ignorando as relações causais entre as características. Reordenar as colunas para respeitar a estrutura causal melhora a média da AUC-ROC de ~0,80 para 0,83 em seis benchmarks.
Por que isso importa para a IA nas finanças
Apesar de suas limitações, a direção zero-shot é genuinamente interessante para a detecção de anomalias em livros contábeis Beancount. O artigo AuditCopilot exigia ajuste fino em exemplos de anomalias rotulados — difíceis de obter na prática porque casos reais de fraude são raros, sensíveis e rotulá-los requer contadores especialistas. A abordagem de ajuste fino sintético do artigo (Llama2-AD, Mistral-AD) contorna isso: você gera lotes de transações com aparência realista com anomalias artificiais e faz o ajuste fino sem nunca tocar em um livro contábil real.
O mecanismo em nível de lote mapeia-se naturalmente à forma como os contadores realmente pensam: "nas transações deste mês, quais entradas parecem incomuns em relação ao restante?" Essa é a intuição por trás dos testes de lançamentos contábeis em auditoria. O desafio é que as anomalias reais em livros contábeis são multidimensionais — um pagamento que é normal em valor, mas incomum em timing, contraparte e combinação de código de conta. Consultar cada característica de forma independente, como faz este artigo, não as capturará.
O que eu quero ver é uma versão dessa abordagem onde a linha completa é incorporada e pontuada holisticamente — mais próximo do que o AnoLLM faz com a modelagem de distribuição — aplicada a uma amostra realista de dados de transações do Beancount. A ideia de ajuste fino sintético merece uma exploração séria; gerar lotes sintéticos de livros contábeis Beancount com anomalias injetadas (contas erradas, entradas duplicadas, valores implausíveis) é simples, e ajustar um modelo 7B neles poderia produzir um auditor zero-shot útil sem exigir nenhum dado rotulado real.
O que ler a seguir
- AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; a extensão mais direta deste trabalho, usando pontuação baseada em probabilidade em vez de previsão de índice por prompt.
- CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; aborda a lacuna da ordenação de colunas alinhando a serialização à estrutura causal.
- AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; um benchmark mais amplo cobrindo tarefas de detecção de anomalias em PLN, útil para entender onde as LLMs já são confiáveis vs. não confiáveis como detectores de anomalias.
