Pular para o conteúdo principal
Financial Reporting

Tudo Sobre Financial Reporting

12 artigos
Generating and auditing financial reports with language models

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

O FinDER avalia o RAG em 5.703 consultas reais de analistas de fundos de hedge contra registros 10-K do S&P 500; o E5-Mistral alcança apenas 25,95% de recall de contexto, e consultas repletas de abreviações custam 8,2 pontos de precisão — evidência de que a normalização de consultas, e não melhores embeddings, é a primeira correção para pipelines de IA financeira.

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

O DocFinQA substitui as passagens selecionadas de 700 palavras do FinQA por arquivos completos da SEC de 123.000 palavras, expondo um aumento de contexto de 175× que reduz quase pela metade a precisão do GPT-4 em documentos longos. Os pipelines de recuperação falham em encontrar o trecho correto em 45% das vezes no HR@3 — e modelos de contexto longo não são um substituto.

FinAuditing: LLMs Pontuam Abaixo de 14% em Tarefas Reais de Auditoria SEC XBRL

O FinAuditing testa 13 LLMs zero-shot em 1.102 instâncias reais de arquivamentos SEC XBRL; as pontuações máximas são de 13,86% na verificação matemática financeira e 12,42% na recuperação de conceitos — resultados que limitam diretamente o que as ferramentas de contabilidade de IA podem ser confiáveis para automatizar sem ferramentas externas.

MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas

O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.

TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros

O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.

FinQA: O Benchmark que Mede o Raciocínio Numérico de IA em Relatórios Financeiros

O FinQA (EMNLP 2021) construiu 8.281 pares de perguntas e respostas a partir de relatórios de lucros do S&P 500 que exigem programas aritméticos de múltiplas etapas. Os modelos neurais pontuaram 61% no lançamento, contra 91% dos especialistas humanos; a precisão cai para 22% em programas de três ou mais etapas. Os modos de falha — constantes de domínio, ancoragem de cross-modality, comprimento da cadeia — mapeiam-se diretamente aos desafios que os agentes Beancount enfrentam hoje.