O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.
O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.
O FinDER avalia o RAG em 5.703 consultas reais de analistas de fundos de hedge contra registros 10-K do S&P 500; o E5-Mistral alcança apenas 25,95% de recall de contexto, e consultas repletas de abreviações custam 8,2 pontos de precisão — evidência de que a normalização de consultas, e não melhores embeddings, é a primeira correção para pipelines de IA financeira.
O DocFinQA substitui as passagens selecionadas de 700 palavras do FinQA por arquivos completos da SEC de 123.000 palavras, expondo um aumento de contexto de 175× que reduz quase pela metade a precisão do GPT-4 em documentos longos. Os pipelines de recuperação falham em encontrar o trecho correto em 45% das vezes no HR@3 — e modelos de contexto longo não são um substituto.
O FinAuditing testa 13 LLMs zero-shot em 1.102 instâncias reais de arquivamentos SEC XBRL; as pontuações máximas são de 13,86% na verificação matemática financeira e 12,42% na recuperação de conceitos — resultados que limitam diretamente o que as ferramentas de contabilidade de IA podem ser confiáveis para automatizar sem ferramentas externas.
O TAT-LLM realiza o ajuste fino (fine-tuning) do LLaMA 2 7B com LoRA em benchmarks de QA de tabelas e textos financeiros, alcançando 64,60% de EM no FinQA — superando os 63,91% do GPT-4 — ao decompor o raciocínio em etapas determinísticas de Extração-Raciocínio-Execução que eliminam erros aritméticos.
O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.
ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.
O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.
O FinQA (EMNLP 2021) construiu 8.281 pares de perguntas e respostas a partir de relatórios de lucros do S&P 500 que exigem programas aritméticos de múltiplas etapas. Os modelos neurais pontuaram 61% no lançamento, contra 91% dos especialistas humanos; a precisão cai para 22% em programas de três ou mais etapas. Os modos de falha — constantes de domínio, ancoragem de cross-modality, comprimento da cadeia — mapeiam-se diretamente aos desafios que os agentes Beancount enfrentam hoje.