FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro
O FinDER (arXiv:2504.15800) é um benchmark de recuperação construído em torno de uma observação simples, mas pouco apreciada: as consultas que profissionais financeiros reais digitam em nada se parecem com as perguntas polidas dos benchmarks acadêmicos. Estou lendo isso porque se situa na interseção de dois fios que venho acompanhando — a lacuna de recuperação na IA financeira e o problema de realismo prático que o DocFinQA e o FinanceBench começaram a expor.
O artigo
Chanyeol Choi, Jihoon Kwon e colegas de uma empresa de IA financeira apresentam um conjunto de dados de 5.703 tripletos de consulta-evidência-resposta anotados por especialistas, provenientes de um serviço real de perguntas e respostas de analistas de fundos de hedge. Os documentos são registros do Formulário 10-K de 490 empresas do S&P 500, coletados do SEC EDGAR. O que diferencia o FinDER de benchmarks anteriores é o lado da consulta: 89,86% das consultas contêm três ou mais abreviações ou acrônimos específicos do domínio. Em vez de "Qual é a receita total da Empresa X para o ano fiscal de 2023?", um analista real pode digitar "GOOGL 10-K FY23 revs breakdown by segment." O conjunto de dados foi publicado no Workshop da ICLR 2025 sobre Avanços em IA Financeira e apareceu posteriormente no ICAIF 2025.
Ideias-chave
- O recall de recuperação é chocantemente baixo em todos os âmbitos: O E5-Mistral (melhor recuperador denso) alcança apenas 25,95% de recall de contexto geral; o BM25 consegue 11,68%. A categoria "Financials" — a mais diretamente relevante para a contabilidade — é a mais difícil: 15,84% e 6,42%, respectivamente.
- A ambiguidade da consulta por si só custa 8,2 pontos de precisão: Testando o E5-Mistral em 500 consultas, os autores comparam paráfrases bem formuladas (33,9 de precisão) com as consultas abreviadas reais (25,7 de precisão). A lacuna é inteiramente atribuível ao tratamento de abreviações/acrônimos, não à complexidade do documento.
- A qualidade da recuperação é o gargalo dominante para a geração: LLMs sem contexto pontuam perto de zero (9–10% de acertos); com os 10 principais trechos recuperados, eles alcançam 29–34%; com contexto oracle perfeito, saltam para 60–68%. Essa lacuna de 35 pontos entre as condições realistas e as condições oracle é maior do que a lacuna entre os modelos de código aberto e os modelos de fronteira.
- A aritmética composicional quebra mesmo com uma boa recuperação: Tarefas de cálculo de várias etapas (consultas composicionais) alcançam apenas ~20% de correção em todos os quatro modelos — Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill e Qwen-QWQ — mesmo com os 10 principais trechos recuperados. O GPT-o1 lidera as tarefas de multiplicação com 42,90%, mas cai para 27,78% na divisão.
- O reranqueamento por LLM adiciona uma melhoria modesta, mas consistente: Permitindo que os modelos reclassifiquem os 10 principais resultados do E5-Mistral antes de responder, o Claude-3.7-Sonnet alcança um F1 de 63,05 e o GPT-o1 chega a 62,90. O Deepseek-R1-Distill fica atrás com 60,01, apesar do forte desempenho em raciocínio estruturado em outros lugares.
- A dificuldade por categoria é desigual: Consultas sobre riscos são as mais fáceis de recuperar (E5-Mistral: 33,07 de recall); o setor financeiro (Financials) continua sendo o mais difícil (15,84). Isso se correlaciona com a estrutura da consulta — as divulgações de risco usam prosa em linguagem natural, as tabelas financeiras usam notação numérica densa.
O que se sustenta — e o que não
A contribuição principal é sólida: trata-se de uma distribuição de consultas reais de analistas em atividade, e o problema das abreviações é genuíno. Qualquer benchmark construído a partir da Wikipedia ou de crowdsourcing estilo FinQA perde isso. A estrutura de avaliação em três níveis — sem contexto, recuperação realista, contexto oracle — é o design correto; ela separa claramente a qualidade da recuperação da qualidade do raciocínio e mostra a lacuna de geração residual (ainda ~32–34% de falha, mesmo com contexto perfeito em perguntas qualitativas).
Onde o artigo é mais fraco é na reprodutibilidade. No momento da publicação, o conjunto de dados não estava disponível publicamente — os autores afirmam que "planejam lançá-lo publicamente em um momento posterior". Isso é um problema significativo para um artigo de workshop que se apresenta como um padrão de avaliação. Benchmarks que não são lançados não são benchmarks; são estudos de caso. Desde então, ele apareceu no ICAIF 2025, então o lançamento pode ter ocorrido, mas a versão do arXiv não confirma isso.
A avaliação de recuperação também utiliza apenas quatro modelos de estágio único (BM25, GTE, mE5, E5-Mistral). Não há recuperação híbrida, nem expansão de consulta, nem HyDE, nem etapa de reescrita visando especificamente o problema das abreviações. Dado que os autores caracterizaram precisamente a lacuna de abreviação, é surpreendente que não testem a correção óbvia: expandir a consulta ("GOOGL" → "Alphabet Inc.") antes da recuperação. Esse experimento está ausente.
Os resultados da geração merecem uma leitura atenta. O desempenho de ~9–10% sem contexto não é um limite inferior útil — é essencialmente zero — mas o teto oracle de 60–68% é mais informativo do que parece. Mesmo com o trecho correto em mãos, os melhores modelos falham em cerca de um terço das perguntas qualitativas e em quatro quintos da aritmética composicional. Esse teto é importante: significa que a recuperação sozinha não pode resolver o problema.
Por que isso importa para a IA financeira
A distribuição de consultas no FinDER mapeia bem a forma como os usuários do Beancount realmente interagem com um agente de livro-razão. Um usuário que mantém suas contas há anos digitará consultas abreviadas e contextuais — "AMZN card Q3 reimb?" em vez de "Quais são os reembolsos do cartão de crédito da Amazon no terceiro trimestre?". Os modelos de embedding padrão falharão ao recuperar as entradas corretas porque foram treinados em texto de linguagem natural limpo. A queda de 8,2 pontos na precisão de consultas limpas para reais é provavelmente conservadora para um domínio de livro-razão pessoal, onde a taquigrafia idiossincrática ("prop mgmt fee" para "taxa de administração de propriedade") está ainda mais distante dos dados de treinamento do que as abreviações padrão da SEC.
O teto de recall de contexto de 25,95% no E5-Mistral é uma função de força: qualquer pipeline de RAG para Beancount precisa prever uma grande fração de evidências perdidas. Uma implicação é que a recuperação de alto recall (múltiplas passagens, formulações de consulta diversificadas) importa mais do que forçar o F1 em uma única passagem. Outra é que a normalização da consulta — mapear a taquigrafia do usuário para nomes de contas canônicos antes da recuperação — deve ser uma etapa de pré-processamento explícita, não deixada para o modelo de embedding.
A precisão de 20% na aritmética composicional, mesmo com contexto oracle, é um sinal separado: para tarefas de cálculo no Beancount, o gargalo da geração é o raciocínio, não a recuperação. O descarregamento no estilo PAL (geração de aritmética em Python em vez de cálculo em texto livre) continua sendo a resposta certa para tarefas numéricas, independentemente de quão boa a recuperação se torne.
O que ler a seguir
- Fin-RATE (arXiv:2602.07294) — o benchmark complementar para rastreamento multiperíodo em registros da SEC; a precisão cai 18,60% em tarefas temporais, que é o problema do livro-razão plurianual do Beancount declarado diretamente.
- IRCoT (arXiv:2212.10509, ACL 2023) — entrelaçamento de recuperação com raciocínio de cadeia de pensamento (chain-of-thought); a estrutura de recuperação de múltiplas passagens aborda diretamente o baixo recall de passagem única que o FinDER expõe.
- Expansão de consulta com LLMs para recuperação específica de domínio — nenhum artigo de benchmark cobre isso bem ainda, mas a lacuna de abreviação do FinDER torna isso uma prioridade de pesquisa de primeira ordem; pesquisar por "HyDE financial domain" e "query expansion SEC filings 2025" é o ponto de partida correto.
