8 publicações com a etiqueta "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Benchmark AD-LLM: GPT-4o Alcança 0,93+ AUROC Zero-Shot para Detecção de Anomalias em Texto

O AD-LLM avalia o GPT-4o e o Llama 3.1 8B em três funções de detecção de anomalias — detector zero-shot, aumentador de dados e seletor de modelos — em cinco conjuntos de dados de PLN; o GPT-4o atinge AUROC de 0,93–0,99 em zero-shot, mas a seleção de modelos baseada em LLM permanece pouco confiável, com implicações diretas para a IA de auditoria financeira.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real

O τ-bench mostra que os principais LLMs, como o Claude 3.5 Sonnet, caem de um pass@1 de 0,692 para um pass@4 de 0,462 em tarefas de atendimento ao cliente no varejo — um "abismo de consistência" com implicações diretas para qualquer agente de gravação operando em um livro-razão Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Por que o RAG com Vector-Store falha em documentos financeiros reais

O FinanceBench avalia 16 configurações de IA em 10.231 perguntas de registros reais da SEC; o RAG com vector-store compartilhado responde corretamente apenas 19% das vezes, e até mesmo o GPT-4-Turbo com a passagem oráculo alcança apenas 85% de precisão — demonstrando que o raciocínio numérico, e não a recuperação, é a restrição limitante para a IA em finanças corporativas.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento

A auto-consistência substitui a decodificação gulosa da cadeia de pensamento por um voto majoritário sobre N caminhos de raciocínio amostrados — aumentando a precisão do GPT-3 no GSM8K em 17,9 pontos percentuais sem qualquer ajuste fino — e aplica-se diretamente a cálculos financeiros de múltiplas etapas onde uma única decodificação de LLM não é confiável.

Tudo Sobre Analytics

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

Benchmark AD-LLM: GPT-4o Alcança 0,93+ AUROC Zero-Shot para Detecção de Anomalias em Texto

τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

FinanceBench: Por que o RAG com Vector-Store falha em documentos financeiros reais

Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico