Pular para o conteúdo principal

Benchmark AD-LLM: GPT-4o Alcança 0,93+ AUROC Zero-Shot para Detecção de Anomalias em Texto

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

As últimas duas entradas nesta série cobriram o AnoLLM e o CausalTAD — abordagens com ajuste fino e engenharia de prompts para detecção de anomalias tabulares. Antes de implantar qualquer uma delas em escala de produção, você precisa saber onde as LLMs realmente se situam em uma gama mais ampla de paradigmas de detecção de anomalias. Esse é o objetivo explícito do AD-LLM, que avalia as LLMs em três funções distintas: detector zero-shot, mecanismo de aumento de dados e consultor de seleção de modelos. O foco são os dados de texto de PLN, em vez de entradas tabulares de livros-razão, mas as lições metodológicas se transferem.

O artigo

2026-06-26-ad-llm-benchmarking-llms-anomaly-detection

Tiankai Yang, Yi Nian e colegas da USC e Texas A&M apresentam o AD-LLM (arXiv:2412.11142, ACL Findings 2025), o primeiro benchmark para avaliar LLMs sistematicamente em três paradigmas de detecção de anomalias em conjuntos de dados de PLN. O cenário é a classificação de classe única: os dados de treinamento contêm apenas amostras normais, e o modelo deve sinalizar anomalias no momento do teste. Os cinco conjuntos de dados — AG News, BBC News, IMDB Reviews, N24 News e SMS Spam — derivam todos de tarefas de classificação de texto com uma categoria designada como anômala. O artigo coloca duas LLMs, GPT-4o e Llama 3.1 8B Instruct, contra 18 baselines não supervisionados tradicionais que abrangem métodos de ponta a ponta (CVDD, DATE) e combinações de dois passos de embedding mais detector (embeddings da OpenAI + LUNAR, LOF, Isolation Forest, etc.).

Principais ideias

  • A detecção zero-shot funciona bem para texto. O GPT-4o obtém AUROC de 0,9293–0,9919 nos cinco conjuntos de dados na configuração Normal+Anomalia; o Llama 3.1 atinge 0,8612–0,9487. O melhor baseline tradicional, OpenAI + LUNAR, pontua cerca de 0,92 no AG News — o GPT-4o iguala ou supera isso sem qualquer treinamento.
  • O aumento sintético ajuda, de forma consistente, mas modesta. Amostras sintéticas geradas por LLM melhoram o pipeline OpenAI + LUNAR em todos os cinco conjuntos de dados. O aumento de descrição de categoria também melhora a maioria dos baselines, embora os ganhos sejam desiguais — o Llama 3.1 melhora o AUROC em +0,07 no IMDB Reviews, mas os resultados em outros lugares são menores.
  • A seleção de modelos é o elo fraco. O GPT-o1-preview recomenda modelos que superam o desempenho médio dos baselines na maioria dos conjuntos de dados e, ocasionalmente, se aproxima do melhor método (por exemplo, no IMDB Reviews e SMS Spam). No entanto, ele nunca identifica de forma confiável o melhor executor, e os autores admitem que as recomendações são baseadas em entradas simplistas que carecem de estatísticas específicas do conjunto de dados.
  • A lacuna entre código aberto e proprietário é real. A vantagem do AUROC do GPT-4o sobre o Llama 3.1 8B é de 4 a 13 pontos, dependendo do conjunto de dados, uma lacuna consistente com o padrão visto em artigos de detecção de anomalias tabulares zero-shot.
  • A detecção de anomalias em PLN ainda carece de um benchmark definitivo. Cinco conjuntos de dados, todos derivados de corpora de classificação, é pouco. O artigo complementar NLP-ADBench (EMNLP Findings 2025) amplia para oito conjuntos de dados e 19 algoritmos, mas ainda usa a mesma construção de categoria-semântica-como-anomalia que torna essas tarefas um tanto artificiais.

O que se sustenta — e o que não

As descobertas de zero-shot são críveis. Usar LLMs como pontuadores sem ajuste fino em dados de anomalias rotulados é genuinamente útil quando a classe de anomalia é semanticamente coerente — uma mensagem de spam difere de uma mensagem legítima de formas que um modelo de linguagem bem treinado compreende. Os números de AUROC são altos, e a comparação com baselines fortes baseados em embeddings da OpenAI é justa.

O escopo, no entanto, é estreito de formas que o artigo subestima. Todos os cinco conjuntos de dados codificam anomalias como uma categoria de tópico diferente — spam versus SMS legítimo, notícias de uma editora externa versus veículos dentro da distribuição. Isso significa que a LLM está essencialmente fazendo classificação de tópicos, uma tarefa para a qual ela é explicitamente pré-treinada. O benchmark não inclui anomalias semânticas dentro de uma única categoria (por exemplo, transações incomuns dentro do mesmo tipo de conta), que é precisamente o tipo de anomalia que importa para a auditoria financeira.

As tarefas de aumento de dados e seleção de modelos são avaliadas nos mesmos cinco conjuntos de dados, então o artigo acaba testando se as LLMs podem tornar fatias ligeiramente diferentes do mesmo problema estreito marginalmente melhores. Os autores listam livremente seis limitações — incluindo que testam apenas um subconjunto de LLMs, excluem regimes de few-shot e ajuste fino, e dependem de entradas simplistas para a seleção de modelos — o que é intelectualmente honesto, mas também sinaliza o quão preliminar este benchmark é.

Um resultado que vale a pena sinalizar para os céticos: as pontuações AUPRC são substancialmente mais baixas que o AUROC para ambos os modelos. O Llama 3.1 no BBC News atinge AUROC de 0,8612, mas apenas AUPRC de 0,3960, refletindo o desequilíbrio de classes na configuração de classe única. Em contextos de auditoria de alta precisão, o AUPRC é a métrica mais significativa e, aqui, a imagem é menos favorável.

Por que isso importa para a IA financeira

A agenda da Bean Labs envolve dois casos de uso de detecção de anomalias: capturar entradas incomuns no livro-razão em tempo real (tabulares, estruturadas) e sinalizar textos narrativos suspeitos em faturas, memorandos ou tickets de suporte (PLN não estruturado). O AD-LLM fala diretamente ao segundo caso e nos dá um teto realista: o GPT-4o pode detectar anomalias em nível de tópico em texto via zero-shot com AUROC acima de 0,93 em conjuntos de dados limpos e equilibrados. Esse é um dado útil, mas as anomalias narrativas em livros-razão são mais sutis — um memorando de fatura que descreve um serviço rotineiro, mas pertence a um fornecedor sinalizado por padrões suspeitos, não é um problema de classificação de tópicos. O benchmark fornece um ponto de partida, não uma resposta.

A descoberta da seleção de modelos é interessante separadamente para o design do sistema. O sonho de perguntar a uma LLM "qual detector de anomalias devo usar neste conjunto de dados?" e obter uma resposta confiável ainda não se concretizou. Isso significa que a escolha entre o ajuste fino estilo AnoLLM, o prompting causal estilo CausalTAD ou um método de embedding clássico ainda requer julgamento humano ou avaliação empírica sistemática — não pode ser delegada a um consultor LLM.

O que ler a seguir

  • NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — o benchmark complementar do mesmo grupo, cobrindo oito conjuntos de dados e 19 algoritmos; fornece o contexto de baseline clássico mais amplo que o escopo de cinco conjuntos de dados do AD-LLM não consegue.
  • Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — pesquisa o panorama completo das abordagens de AD baseadas em LLM em modalidades de texto, imagem e tabulares; preenche o contexto de onde o AD-LLM se situa em relação ao trabalho anterior.
  • AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — a contraparte tabular; comparar sua abordagem baseada em verossimilhança com a estratégia zero-shot baseada em prompts do AD-LLM esclarece qual paradigma é mais apropriado para as entradas do livro-razão do Beancount.