OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro
A maioria dos benchmarks de RAG em finanças pergunta se um sistema consegue recuperar e responder — ponto final. O OmniEval (EMNLP 2025, arXiv:2412.13018) de Shuting Wang et al. na RUC faz uma pergunta mais difícil: o desempenho se mantém em toda a matriz de tipos de tarefas e tópicos financeiros? Estou lendo isso agora porque é a tentativa mais estruturada de mapear a forma das falhas de RAG em finanças antes de tentarmos construir agentes de livros contábeis Beancount confiáveis sobre pipelines de RAG.
O artigo
O OmniEval constrói uma grade de avaliação bidimensional: cinco classes de tarefas (QA extrativo, raciocínio multi-hop, QA de contraste, QA de formato longo e QA conversacional) cruzadas com 16 tópicos financeiros (mercados de ações, banco de investimento, fundos, seguros de propriedade e outros). O resultado é um benchmark estruturado com 11,4 mil exemplos de teste gerados automaticamente, 1,7 mil exemplos anotados por humanos e um corpus de recuperação de 362 mil documentos reunidos de seis fontes de dados financeiros chineses (BSCF-DB com 193 mil documentos, FinGLM com 55 mil, BAAI-Fin com 48 mil, coletas oficiais da web, PDFs e conteúdo financeiro da Wikipédia). O benchmark também inclui um avaliador LLM ajustado — Qwen2.5-7B-Instruct treinado em 910 instâncias rotuladas por humanos — que pontua a qualidade da geração em precisão, alucinação, completude, utilização e precisão numérica. O artigo foi publicado no EMNLP 2025.
Ideias principais
- Os casos de teste gerados automaticamente passaram por uma verificação de aceitação humana de 87,47%, o que significa que aproximadamente 1 em cada 8 instâncias geradas foi descartada — uma taxa de ruído não trivial para um benchmark.
- O melhor recuperador (GTE-Qwen2-1.5B) alcançou um MAP de 0,4370 e um MRR de 0,4491 no conjunto gerado automaticamente, o que significa que a passagem melhor classificada está correta em menos da metade das vezes, mesmo com o recuperador mais forte testado.
- A precisão da geração (ACC) em todas as combinações de recuperador-LLM variou de 0,3238 a 0,4476 — a melhor configuração acerta menos da metade das perguntas.
- A precisão numérica (NAC) é a descoberta mais marcante: 0,0659 a 0,3595. O melhor sistema acerta os números financeiros em cerca de 36% das vezes; o pior é próximo de zero.
- O avaliador ajustado alcançou 74,4% de concordância com a anotação humana (κ = 0,6486), superando substancialmente as linhas de base apenas com prompts de 55–71% — mas ainda deixando uma em cada quatro avaliações desalinhada com o julgamento humano.
- O raciocínio multi-hop e o QA conversacional foram consistentemente as classes de tarefas mais difíceis.
O que se sustenta — e o que não se sustenta
O design de avaliação em matriz é genuinamente útil. Benchmarks financeiros anteriores (FinanceBench, FinQA, DocFinQA) tratam a avaliação como um eixo único — geralmente a precisão da resposta — e perdem a variação estrutural de como o RAG falha. Saber que um sistema pontua bem em QA extrativo, mas mal em raciocínio multi-hop é acionável; saber que ele tem uma média geral não é. A grade OmniEval torna essa variação visível, e a descoberta de que o desempenho é inconsistente entre os tópicos é exatamente o tipo de resultado que os profissionais precisam ver antes da implantação.
Dito isso, existem limites reais que quero abordar diretamente. O corpus é esmagadoramente chinês: cinco das seis fontes de dados são dados financeiros chineses (BSCF, FinGLM, BAAI-Fin) e a sexta é a Wikipédia chinesa. O artigo não relata resultados divididos por idioma — apenas relata números agregados. Isso torna cada pontuação no artigo suspeita como uma afirmação sobre RAG financeiro em geral, em oposição ao RAG financeiro sobre texto chinês com recuperadores e LLMs especializados em chinês (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Usuários financeiros de língua inglesa não podem usar esses números diretamente.
O avaliador LLM é treinado em 910 instâncias rotuladas. Isso é pouco. A concordância humana de 74,4% em κ = 0,6486 é defensável como ponto de partida, mas significa que o próprio framework de avaliação introduz ruído substancial. Se o benchmark for usado para comparar sistemas que diferem por alguns pontos percentuais, a variância do avaliador ofuscará o sinal.
O pipeline de geração automática — o GPT-4 produz as perguntas de teste, os humanos filtram com 87,47% de aceitação — também levanta uma questão de contaminação que o artigo não aborda: perguntas geradas pelo GPT-4 podem favorecer os pontos fortes dos modelos da classe GPT-4 de formas que desvantagem modelos mais antigos ou menores sistematicamente.
Por que isso importa para a IA financeira
Os índices de precisão numérica são os números aos quais sempre retorno: 0,0659–0,3595. Se o melhor sistema de RAG testado acerta os números financeiros apenas 36% das vezes em uma avaliação de benchmark, qualquer agente de gravação Beancount construído sobre um pipeline de RAG ingênuo irá corromper os dados do livro contábil. O formato do Beancount é implacável — um valor, data ou nome de conta incorreto produz um erro de análise ou um erro contábil silencioso que pode se propagar pelos anos fiscais. Este benchmark nos fornece evidências concretas de que a recuperação de RAG e a geração de LLM ainda não são confiáveis o suficiente para a gravação direta no livro contábil sem uma camada de validação.
A estrutura de classes de tarefas também se mapeia claramente para os casos de uso do Beancount. O QA extrativo corresponde a simples consultas de saldo. O raciocínio multi-hop corresponde a perguntas como "qual é o meu lucro líquido após impostos no período do Q1 ao Q3?". O QA conversacional corresponde a um usuário refinando iterativamente uma solicitação de conciliação ao longo de uma sessão. A descoberta do OmniEval de que as tarefas multi-hop e conversacionais são as mais difíceis é exatamente a má notícia para o design do agente Beancount: os casos fáceis estão quase bons; os casos realistas são onde o sistema desmorona.
O que ler a seguir
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — o análogo mais próximo de domínio geral para a abordagem de ajuste do avaliador do OmniEval; comparar a metodologia ARES com a do OmniEval esclareceria se as escolhas de design do avaliador-LLM são fundamentadas ou ad hoc.
- RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — geração automatizada de cenários para avaliação de RAG; estende a metodologia de autogeração que o OmniEval usa e pode abordar a preocupação com contaminação.
- FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — estende a avaliação de RAG para documentos financeiros multimodais (tabelas, gráficos); relevante à medida que os usuários do Beancount têm cada vez mais imagens de recibos e extratos em PDF ao lado de livros contábeis em texto simples.
