Pular para o conteúdo principal

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

A IA financeira tem sido dominada pelo RAG apenas de texto, mas os documentos financeiros reais estão repletos de gráficos, tabelas e figuras que o OCR não consegue capturar totalmente. O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para avaliar o RAG multimodal com citações visuais no domínio financeiro, e os seus resultados são um lembrete sério de quão longe os sistemas de produção ainda têm de chegar.

O artigo

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

Zhao, Jin, Li e Gao, da Universidade de Pequim, apresentam o FinRAGBench-V, um benchmark bilíngue construído a partir de documentos financeiros reais: relatórios de pesquisa, demonstrações financeiras, prospectos, artigos acadêmicos, revistas e notícias. O corpus de recuperação é substancial — 60.780 páginas em chinês e 51.219 páginas em inglês em aproximadamente 1.100 documentos por idioma — emparelhado com 1.394 pares de P&R anotados por humanos abrangendo sete categorias de perguntas: inferência de texto, extração de gráficos e tabelas, cálculo numérico, consultas sensíveis ao tempo e raciocínio multi-página. Além do conjunto de dados, a contribuição central do artigo é o RGenCite, um sistema de referência que gera respostas juntamente com citações visuais ao nível de pixel na forma de coordenadas de caixas delimitadoras (bounding-box) que marcam as regiões específicas do documento que sustentam cada afirmação.

Ideias principais

  • A recuperação multimodal domina a de apenas texto por uma margem esmagadora: o ColQwen2, um recuperador de visão-linguagem construído em embeddings de imagens de página, atinge um Recall@10 de 90,13% (chinês) e 85,86% (inglês). Os melhores recuperadores baseados em texto, BM25 e BGE-M3, chegam a cerca de 42,71%. Esta lacuna não é um erro de arredondamento.
  • A precisão da geração é baixa mesmo para modelos de fronteira: o GPT-4o em inglês atinge 43,41% de precisão (ROUGE 24,66); o o4-mini em chinês atinge 58,13% (ROUGE 38,55). Estes são modelos proprietários de topo com uma forte recuperação implementada.
  • A citação ao nível de página funciona; ao nível de bloco, não: o recall ao nível de página situa-se entre 75–93% para os melhores modelos. O recall ao nível de bloco — saber qual célula de tabela específica ou região de gráfico fundamenta uma afirmação — cai para 20–61%. Esta é a lacuna crucial para a auditabilidade.
  • O raciocínio numérico e a inferência multi-página quebram os modelos primeiro: perguntas que exigem cálculos entre páginas ou períodos temporais são onde a precisão cai mais drasticamente em todos os sistemas testados.
  • Modelos proprietários superam substancialmente as alternativas de código aberto: a lacuna entre APIs fechadas e código aberto é maior aqui do que na maioria dos benchmarks de PLN, sugerindo que o raciocínio financeiro visual permanece sem solução para modelos abertos.
  • A autoavaliação para citações é imperfeita: o avaliador de citação por recorte de imagem atinge Pearson r = 0,68 com julgamentos humanos — razoável, mas não fiável o suficiente para confiar totalmente sem amostragem.

O que se sustenta — e o que não

A descoberta sobre recuperação é o resultado mais credível do artigo. Uma lacuna de quase 50 pontos percentuais entre recuperadores multimodais e apenas de texto em mais de 60 mil páginas é demasiado grande para ser ignorada. Quando se faz o OCR de um documento financeiro antes da indexação, destroem-se os sinais de layout estrutural — em que coluna um número aparece, se a legenda de uma figura modifica a interpretação de uma tabela — que acabam por ser enormemente importantes para a recuperação.

Os números de geração são honestos, mas difíceis de interpretar isoladamente. Os autores não isolam quanto da lacuna de precisão é atribuível a erros de recuperação versus falhas de geração. Dado que o Recall@10 já é de 85,86% para o inglês, uma fração significativa das falhas deve ser do lado da geração e não da recuperação. Conhecer essa repartição esclareceria se o gargalo é o raciocínio multimodal ou algo mais fundamental sobre como os MLLMs lidam com a linguagem financeira.

O conjunto de avaliação de 1.394 pares de P&R é pequeno para o âmbito do benchmark. Dividido por sete categorias e dois idiomas, alguns segmentos têm bem menos de 200 exemplos. A significância estatística das descobertas ao nível de categoria é deixada implícita. Isto não é invulgar para um artigo de benchmark, mas significa que seria fácil construir comparações selecionadas manualmente (cherry-picked).

O protocolo de avaliação de citações é uma contribuição interessante, mas o Pearson r = 0,68 com classificações humanas não é suficientemente forte para tratar a autoavaliação como a verdade absoluta (ground truth) para a fundamentação ao nível de bloco. Os autores reconhecem isso; trabalhos futuros sobre melhores métricas de citação são explicitamente sinalizados.

Por que isto é importante para a IA nas finanças

O Beancount opera sobre ficheiros de livro-razão (ledger) em texto simples, o que torna o RAG apenas de texto defensável para consultar transações passadas. Mas a tarefa contabilística mais ampla envolve documentos que não são, decididamente, em texto simples: PDFs de extratos bancários, faturas digitalizadas, imagens de recibos, relatórios anuais com tabelas e gráficos incorporados. No momento em que um agente Beancount precisa de reconciliar uma entrada do livro-razão com um documento de origem — verificar se uma determinada cobrança corresponde à fatura em arquivo — está a realizar exatamente a tarefa que o FinRAGBench-V avalia.

A descoberta da citação ao nível de bloco é o que mais importa para este caso de uso. Se um agente deve justificar uma entrada no livro-razão apontando para um item de linha específico num PDF, e o melhor sistema disponível alcança apenas 20–61% de recall ao nível de bloco, isso não está pronto para auditoria. Qualquer pipeline Beancount que lide com documentos de origem digitalizados necessita de revisão humana (human-in-the-loop) até que este número melhore substancialmente.

A lacuna na modalidade de recuperação também argumenta fortemente contra pipelines de puro texto para a ingestão de documentos. Uma imagem de recibo transporta informações de layout — campos de valor, nomes de fornecedores, posições de itens de linha — que o OCR destrói. Essa informação de layout é precisamente o que distingue um total de linha de um valor de imposto, e o FinRAGBench-V mostra que os recuperadores multimodais exploram isso de formas que os recuperadores de texto não conseguem.

O que ler a seguir

  • ColPali: Efficient Document Retrieval with Vision Language Models — o antecessor do ColQwen2 que estabeleceu a abordagem de embedding visual de páginas sobre a qual o melhor recuperador do FinRAGBench-V foi construído [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — aborda P&R visual de múltiplos documentos com uma estrutura flexível que lida com raciocínio visual de salto único (single-hop) e múltiplos saltos (multi-hop) entre páginas [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance — um benchmark complementar de 2025 que avalia a sensibilidade temporal no RAG multimodal financeiro, diretamente complementar à categoria de perguntas sensíveis ao tempo do FinRAGBench-V [arXiv:2503.05185]