FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.
Fin-RATE evalúa 17 LLM con 7,500 pares de preguntas y respuestas seleccionados por expertos a partir de 2,472 presentaciones de la SEC, revelando un colapso de precisión del 18.60% en el seguimiento longitudinal y una caída de 54 puntos para el modelo especializado Fin-R1 en tareas entre entidades, señalando al sistema de recuperación, y no al modelo base, como el cuello de botella limitante.
FinDER evalúa RAG sobre 5,703 consultas reales de analistas de fondos de cobertura frente a presentaciones 10-K del S&P 500; E5-Mistral logra solo un 25.95% de recuperación de contexto, y las consultas con muchas abreviaturas cuestan 8.2 puntos de precisión — evidencia de que la normalización de consultas, y no mejores embeddings, es la primera solución para los pipelines de IA en finanzas.
DocFinQA sustituye los pasajes curados de 700 palabras de FinQA por presentaciones completas ante la SEC de 123.000 palabras, exponiendo un aumento de contexto de 175 veces que casi reduce a la mitad la precisión de GPT-4 en documentos largos. Los canales de recuperación no logran extraer el fragmento correcto el 45% de las veces en HR@3, y los modelos de contexto largo no son un sustituto.
FinAuditing evalúa 13 LLM en modo zero-shot sobre 1,102 instancias reales de presentaciones SEC XBRL; las puntuaciones máximas son del 13.86% en verificación matemática financiera y del 12.42% en recuperación de conceptos, resultados que limitan directamente qué herramientas de contabilidad con IA pueden automatizarse de forma fiable sin herramientas externas.
TAT-LLM ajusta LLaMA 2 7B con LoRA en benchmarks de QA de tablas y textos financieros, logrando un 64,60% de EM en FinQA — superando el 63,91% de GPT-4 — al descomponer el razonamiento en pasos deterministas de Extracción-Razonamiento-Ejecución que eliminan errores aritméticos.
MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.
ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.
TAT-QA es un benchmark de 16.552 preguntas sobre contextos de informes financieros híbridos de tabla más texto que demostró que la fundamentación en la evidencia —no la aritmética— es el cuello de botella central en la IA financiera; para 2024, los LLM de 7B ajustados alcanzaron un 83% de F1, cerrando la mayor parte de la brecha frente al techo humano del 91%.
FinQA (EMNLP 2021) construyó 8,281 pares de preguntas y respuestas a partir de informes de ganancias del S&P 500 que requieren programas aritméticos de múltiples pasos. Los modelos neuronales obtuvieron una puntuación del 61% en el momento de su lanzamiento frente al 91% de los expertos humanos; la precisión se desploma al 22% en programas de tres o más pasos. Los modos de falla (constantes de dominio, fundamentación intermodal, longitud de la cadena) se corresponden directamente con los desafíos que enfrentan los agentes de Beancount hoy en día.