FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.
Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.
FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.
DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.
FinAuditing posa a prova 13 LLM en format zero-shot sobre 1.102 instàncies reals de presentacions SEC XBRL; les puntuacions més altes són del 13,86% en verificació matemàtica financera i del 12,42% en recuperació de conceptes — resultats que limiten directament el que es pot confiar a les eines de comptabilitat d'IA sense eines externes.
TAT-LLM ajusta LLaMA 2 7B amb LoRA en referents de preguntes i respostes de taules i textos financers, assolint un 64,60% d'EM a FinQA —superant el 63,91% de GPT-4— mitjançant la descomposició del raonament en passos deterministes d'Extracció-Raonament-Execució que eliminen els errors aritmètics.
MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.
ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.
TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.
FinQA (EMNLP 2021) va crear 8.281 parells de preguntes i respostes d'informes de resultats de l'S&P 500 que requerien programes aritmètics de diversos passos. Els models neuronals van obtenir un 61% de puntuació en el llançament enfront del 91% dels experts humans; la precisió cau al 22% en programes de tres o més passos. Els modes de fallada —constants de domini, vinculació entre modalitats, longitud de la cadena— es relacionen directament amb els reptes que afronten avui els agents de Beancount.