40 publicações com a etiqueta "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

O WildToolBench (ICLR 2026) avalia 57 LLMs em 1.024 tarefas extraídas do comportamento real do usuário — nenhum modelo excede 15% de acurácia de sessão, com a orquestração composicional, intenção oculta e transições de instrução como os três modos de falha mais acentuados.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

Um levantamento sistemático de métodos de estimativa de confiança e calibração de LLMs — abordagens de logit white-box, SelfCheckGPT baseado em consistência e entropia semântica — revela que as pontuações de confiança verbalizadas do GPT-4 atingem apenas ~62,7% de AUROC, pouco acima do acaso, com implicações diretas para a implantação de agentes cientes de incerteza em finanças e contabilidade.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

O OmniEval (EMNLP 2025) avalia sistemas RAG em 5 tipos de tarefas × 16 tópicos financeiros usando 11,4 mil casos de teste gerados automaticamente. Os melhores sistemas alcançam apenas 36% de precisão numérica — evidência concreta de que os pipelines de RAG precisam de camadas de validação antes de escrever em livros contábeis estruturados.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Uma calibração em tempo de inferência, sem necessidade de treinamento, subtrai o viés posicional dos pesos de atenção do LLM, recuperando até 15 pontos percentuais de precisão de RAG quando documentos recuperados estão enterrados no meio do contexto — e o que isso significa para pipelines de agentes financeiros específicos.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

O FinDER avalia o RAG em 5.703 consultas reais de analistas de fundos de hedge contra registros 10-K do S&P 500; o E5-Mistral alcança apenas 25,95% de recall de contexto, e consultas repletas de abreviações custam 8,2 pontos de precisão — evidência de que a normalização de consultas, e não melhores embeddings, é a primeira correção para pipelines de IA financeira.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.

Tudo Sobre Data Science

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico