Pular para o conteúdo principal

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

As três entradas anteriores nesta sequência cobriram o AnoLLM, CausalTAD e AD-LLM — cada um visando especificamente a detecção de anomalias em dados tabulares. Este levantamento de Ruiyao Xu e Kaize Ding, aceito para o NAACL 2025 Findings, deveria unir esses fios em um mapa de cenário unificado. Eu esperava uma taxonomia que esclarecesse o espaço de design; o que recebi foi principalmente um levantamento de detecção de anomalias em imagens e vídeos com um leve verniz de generalidade.

O artigo

2026-07-03-llm-anomaly-ood-detection-survey

O levantamento de Xu e Ding (arXiv:2409.01980) propõe organizar a detecção de anomalias e fora de distribuição (OOD) baseada em LLM em duas classes de alto nível: LLMs para Detecção, onde o modelo identifica anomalias diretamente, e LLMs para Geração, onde o modelo aumenta os dados de treinamento ou produz explicações em linguagem natural que alimentam um detector posterior. Cada classe se subdivide ainda mais. A detecção se divide em métodos baseados em prompts (LLMs congelados ou ajustados consultados com prompts em linguagem natural) e métodos baseados em contraste (modelos da família CLIP que pontuam a anomalia comparando fragmentos de imagem com descrições de texto). A geração se divide em métodos centrados em aumento (gerando pseudorrótulos OOD ou amostras sintéticas de minorias) e métodos centrados em explicação (produzindo justificativas em linguagem natural para eventos sinalizados).

A lista de leitura do GitHub que acompanha o artigo cobre aproximadamente 39 artigos: 24 em detecção, 10 em aumento e 5 em explicação.

Ideias principais

  • Métodos baseados em contraste dominam a detecção de anomalias em imagens. O WinCLIP alcança 91,8% e 85,1% de AUROC na classificação e segmentação de anomalias zero-shot no MVTec-AD sem qualquer ajuste específico para o conjunto de dados, o que é competitivo com métodos supervisionados treinados nesse conjunto de dados.
  • LLMs congelados enfrentam uma lacuna de modalidade para dados que não são de texto. O levantamento observa explicitamente que "solicitar diretamente prompts a LLMs congelados para detecção de anomalias ou OOD em vários tipos de dados geralmente resulta em um desempenho abaixo do ideal devido à lacuna de modalidade inerente entre texto e outras modalidades de dados".
  • Ajustes de LoRA e adaptadores recuperam grande parte dessa lacuna. Métodos como AnomalyGPT e AnomalyCLIP realizam o ajuste fino com técnicas de eficiência de parâmetros e superam substancialmente seus equivalentes congelados.
  • A geração como aumento é subutilizada. Pseudorrótulos OOD no nível de legenda gerados pelo BLIP-2 superam as alternativas nos níveis de palavra e descrição na detecção OOD, sugerindo que uma supervisão de texto mais rica importa mesmo para tarefas visuais.
  • A geração centrada em explicação é a subcategoria mais recente. Sistemas como Holmes-VAD e VAD-LLaMA vão além dos sinalizadores binários para gerar justificativas em linguagem natural para eventos anômalos, principalmente em vídeos de vigilância.
  • Dados tabulares estão quase ausentes. O levantamento cita um método — "Tabular" por Li et al. (2024) — que converte linhas tabulares em prompts de texto e faz o ajuste fino com LoRA, mas não fornece números comparativos.

O que se sustenta — e o que não

A taxonomia de duas classes é genuinamente limpa e provavelmente a usarei para organizar meu próprio pensamento. A distinção detecção-vs-geração captura uma bifurcação arquitetural real: ou você pede ao LLM para classificar diretamente ou o usa para construir um sinal de treinamento melhor para um detector tradicional.

O que não posso aceitar é o enquadramento do artigo como um levantamento sobre detecção de anomalias de forma ampla. A cobertura está esmagadoramente concentrada em imagens de defeitos industriais (MVTec-AD, VisA) e vídeos de vigilância (UCF-Crime, XD-Violence). Dos cerca de 39 artigos catalogados, quase nenhum aborda dados tabulares ou financeiros. Séries temporais recebem algumas citações. Dados tabulares recebem uma frase. Este não é um mapa de cenário para a Bean Labs — é um mapa de cenário para pesquisadores de visão computacional que desejam usar CLIP para detecção de defeitos.

Os autores reconhecem que "restrições de espaço impedem resumos detalhados de métricas", o que é uma forma educada de dizer que não há tabelas de comparação. Para um artigo de levantamento, a ausência de síntese quantitativa é uma lacuna significativa. Os leitores não podem usar este artigo para decidir qual paradigma é melhor para seu caso de uso sem rastrear cada artigo citado individualmente.

O desafio da alucinação é listado como um problema em aberto, mas o tratamento é superficial — nomeia o risco sem analisar quais paradigmas de detecção são mais ou menos suscetíveis, ou como a geração centrada em explicação poderia tornar as alucinações mais detectáveis por meio de revisão humana.

Por que isso importa para a IA financeira

Duas subcategorias são relevantes apesar da cobertura focada em imagens. Primeiro, a subcategoria de geração centrada em explicação é exatamente o que os agentes de auditoria do Beancount precisam: não apenas um sinalizador de que um lançamento contábil é anômalo, mas uma frase em linguagem natural explicando o porquê. Auditores financeiros não podem agir sobre uma saída binária. Segundo, o silêncio quase total do levantamento sobre a detecção de anomalias em dados tabulares é, por si só, informativo — confirma que a sequência de AnoLLM, CausalTAD e AD-LLM que venho acompanhando é uma área de fronteira, e não um caminho já percorrido, e que o design de ferramentas de auditoria baseadas em LLM para livros-razão Beancount exige a síntese de insights da detecção de anomalias em visão que ainda não foram portados para contextos tabulares.

O trade-off entre prompting e ajuste (tuning) é a descoberta mais aplicável: o prompting zero-shot funciona como uma primeira aproximação, mas sofre com a lacuna de modalidade; o ajuste fino baseado em LoRA em exemplos rotulados representativos fecha essa lacuna. Para uma implementação do Beancount com exemplos de anomalias rotulados de livros-razão históricos, o caminho do ajuste fino parece mais confiável do que o prompting puro.

O que ler a seguir

  • "Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — utiliza embeddings de sentence-transformers de LLM em lançamentos reais de livros-razão; uma ponte direta do framework deste levantamento para o caso de uso tabular do Beancount.
  • "Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — pipeline multi-agente para detecção de anomalias em dados de mercado; o padrão de coordenação multi-agente pode ser transposto para a auditoria de livros-razão.
  • AnomalyGPT (arXiv:2308.15366) — LVLM ajustado para detecção de anomalias industriais com localização ao nível de pixel; a leitura deste artigo esclarece o que o "ajuste de LLM para detecção" realmente significa arquiteturalmente, algo que o levantamento descreve, mas não explica.