Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.
O AD-LLM avalia o GPT-4o e o Llama 3.1 8B em três funções de detecção de anomalias — detector zero-shot, aumentador de dados e seletor de modelos — em cinco conjuntos de dados de PLN; o GPT-4o atinge AUROC de 0,93–0,99 em zero-shot, mas a seleção de modelos baseada em LLM permanece pouco confiável, com implicações diretas para a IA de auditoria financeira.
O CausalTAD melhora a detecção de anomalias tabulares baseada em LLM reordenando as colunas da tabela para respeitar dependências causais antes da serialização, elevando a AUC-ROC média de 0,803 para 0,834 em relação ao AnoLLM em benchmarks de tipos mistos — com implicações diretas para a detecção de anomalias em dados estruturados de livros contábeis (ledgers).
O AnoLLM (ICLR 2025) reformula a detecção de anomalias tabulares como estimativa de densidade de LLM — realizando o ajuste fino em linhas normais e pontuando pela log-verossimilhança negativa. Ele supera métodos clássicos em conjuntos de dados de fraude de tipos mistos, mas não oferece vantagem em dados puramente numéricos, com implicações reais para a detecção de anomalias em lançamentos de livros contábeis do Beancount.
O GPT-4 atinge uma média de 74,1 de AUROC no benchmark ODDS sem ajuste fino — quase igualando a linha de base clássica ECOD de 75,5 — mas falha em anomalias multidimensionais e conjuntos de dados de alta variância; uma análise crítica da detecção de anomalias zero-shot por LLMs e suas implicações para a auditoria automatizada de livros contábeis Beancount.
O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.
Uma leitura detalhada do artigo de Chain-of-Thought de 2022 de Wei et al. e o que ele significa para a IA financeira — por que o CoT aumenta a precisão, mas pode reduzir o recall na detecção de eventos raros, por que o limite de escala é importante para agentes em produção e o que uma equipe de finanças que utiliza LLMs deve observar.