35 publicações com a etiqueta "Finance"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

Um levantamento sistemático de métodos de estimativa de confiança e calibração de LLMs — abordagens de logit white-box, SelfCheckGPT baseado em consistência e entropia semântica — revela que as pontuações de confiança verbalizadas do GPT-4 atingem apenas ~62,7% de AUROC, pouco acima do acaso, com implicações diretas para a implantação de agentes cientes de incerteza em finanças e contabilidade.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

O OmniEval (EMNLP 2025) avalia sistemas RAG em 5 tipos de tarefas × 16 tópicos financeiros usando 11,4 mil casos de teste gerados automaticamente. Os melhores sistemas alcançam apenas 36% de precisão numérica — evidência concreta de que os pipelines de RAG precisam de camadas de validação antes de escrever em livros contábeis estruturados.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

O FinDER avalia o RAG em 5.703 consultas reais de analistas de fundos de hedge contra registros 10-K do S&P 500; o E5-Mistral alcança apenas 25,95% de recall de contexto, e consultas repletas de abreviações custam 8,2 pontos de precisão — evidência de que a normalização de consultas, e não melhores embeddings, é a primeira correção para pipelines de IA financeira.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Ajuste Fino de LLMs para Detecção de Anomalias em Dados Tabulares Financeiros

O AnoLLM (ICLR 2025) reformula a detecção de anomalias tabulares como estimativa de densidade de LLM — realizando o ajuste fino em linhas normais e pontuando pela log-verossimilhança negativa. Ele supera métodos clássicos em conjuntos de dados de fraude de tipos mistos, mas não oferece vantagem em dados puramente numéricos, com implicações reais para a detecção de anomalias em lançamentos de livros contábeis do Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

O DocFinQA substitui as passagens selecionadas de 700 palavras do FinQA por arquivos completos da SEC de 123.000 palavras, expondo um aumento de contexto de 175× que reduz quase pela metade a precisão do GPT-4 em documentos longos. Os pipelines de recuperação falham em encontrar o trecho correto em 45% das vezes no HR@3 — e modelos de contexto longo não são um substituto.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

O TheAgentCompany testa 175 tarefas reais de trabalho em uma intranet simulada com GitLab, OwnCloud e RocketChat. O melhor modelo (Gemini-2.5-Pro) conclui apenas 30% das tarefas a um custo de US$ 4 cada, revelando que agentes autônomos permanecem longe de serem viáveis para fluxos de trabalho contábeis e financeiros.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira

O InvestorBench (ACL 2025) testa 13 backbones de LLM em negociações retroativas (backtested) de ações, cripto e ETFs usando retorno acumulado e índice de Sharpe — não precisão de QA. O Qwen2.5-72B lidera o ranking de ações com 46,15% de CR; modelos ajustados para finanças falham em ações. O tamanho do modelo prevê o desempenho de forma mais confiável do que o ajuste fino de domínio.

Tudo Sobre Finance

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

AnoLLM: Ajuste Fino de LLMs para Detecção de Anomalias em Dados Tabulares Financeiros

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico