Pular para o conteúdo principal
Data Science

Tudo Sobre Data Science

40 artigos
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

Um levantamento sistemático de métodos de estimativa de confiança e calibração de LLMs — abordagens de logit white-box, SelfCheckGPT baseado em consistência e entropia semântica — revela que as pontuações de confiança verbalizadas do GPT-4 atingem apenas ~62,7% de AUROC, pouco acima do acaso, com implicações diretas para a implantação de agentes cientes de incerteza em finanças e contabilidade.

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

O OmniEval (EMNLP 2025) avalia sistemas RAG em 5 tipos de tarefas × 16 tópicos financeiros usando 11,4 mil casos de teste gerados automaticamente. Os melhores sistemas alcançam apenas 36% de precisão numérica — evidência concreta de que os pipelines de RAG precisam de camadas de validação antes de escrever em livros contábeis estruturados.

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Uma calibração em tempo de inferência, sem necessidade de treinamento, subtrai o viés posicional dos pesos de atenção do LLM, recuperando até 15 pontos percentuais de precisão de RAG quando documentos recuperados estão enterrados no meio do contexto — e o que isso significa para pipelines de agentes financeiros específicos.

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

O FinDER avalia o RAG em 5.703 consultas reais de analistas de fundos de hedge contra registros 10-K do S&P 500; o E5-Mistral alcança apenas 25,95% de recall de contexto, e consultas repletas de abreviações custam 8,2 pontos de precisão — evidência de que a normalização de consultas, e não melhores embeddings, é a primeira correção para pipelines de IA financeira.

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.