Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.
O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.
O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.
O AD-LLM avalia o GPT-4o e o Llama 3.1 8B em três funções de detecção de anomalias — detector zero-shot, aumentador de dados e seletor de modelos — em cinco conjuntos de dados de PLN; o GPT-4o atinge AUROC de 0,93–0,99 em zero-shot, mas a seleção de modelos baseada em LLM permanece pouco confiável, com implicações diretas para a IA de auditoria financeira.
O τ-bench mostra que os principais LLMs, como o Claude 3.5 Sonnet, caem de um pass@1 de 0,692 para um pass@4 de 0,462 em tarefas de atendimento ao cliente no varejo — um "abismo de consistência" com implicações diretas para qualquer agente de gravação operando em um livro-razão Beancount.
ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.
O FinanceBench avalia 16 configurações de IA em 10.231 perguntas de registros reais da SEC; o RAG com vector-store compartilhado responde corretamente apenas 19% das vezes, e até mesmo o GPT-4-Turbo com a passagem oráculo alcança apenas 85% de precisão — demonstrando que o raciocínio numérico, e não a recuperação, é a restrição limitante para a IA em finanças corporativas.
A auto-consistência substitui a decodificação gulosa da cadeia de pensamento por um voto majoritário sobre N caminhos de raciocínio amostrados — aumentando a precisão do GPT-3 no GSM8K em 17,9 pontos percentuais sem qualquer ajuste fino — e aplica-se diretamente a cálculos financeiros de múltiplas etapas onde uma única decodificação de LLM não é confiável.