FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.
EnterpriseArena pone a prueba 11 LLMs mediante una simulación de CFO de 132 meses rastreando la supervivencia, la valoración final y las tasas de cierre de libros. Solo Qwen3.5-9B sobrevive al 80% de las ejecuciones; GPT-5.4 y DeepSeek-V3.1 alcanzan el 0%. Los expertos humanos logran una supervivencia del 100% con un valor terminal 5 veces superior. El cuello de botella crítico es que los LLMs omiten la conciliación del libro mayor el 80% de las veces, actuando sobre un estado financiero obsoleto.
WildToolBench (ICLR 2026) evalúa 57 LLMs en 1.024 tareas extraídas del comportamiento real del usuario; ningún modelo supera el 15% de precisión por sesión, con la orquestación compositiva, la intención oculta y las transiciones de instrucciones como los tres modos de fallo más agudos.
Un estudio sistemático de los métodos de estimación de confianza y calibración de LLM —enfoques de logits de caja blanca, SelfCheckGPT basado en consistencia y entropía semántica— revela que las puntuaciones de confianza verbalizada de GPT-4 alcanzan solo un AUROC de ~62,7%, apenas por encima del azar, con implicaciones directas para el despliegue de agentes conscientes de la incertidumbre en finanzas y contabilidad.
JSONSchemaBench evalúa 9.558 esquemas JSON del mundo real frente a seis frameworks de decodificación restringida y descubre que la complejidad de los esquemas provoca que la cobertura colapse del 86% en esquemas simples al 3% en los complejos, con XGrammar emitiendo silenciosamente 38 salidas no conformes y ningún framework cubriendo las 45 categorías de características de JSON Schema.
FinMCP-Bench evalúa seis modelos de LLM en 613 tareas de uso de herramientas financieras del mundo real respaldadas por 65 servidores MCP; el mejor modelo obtiene una puntuación de coincidencia exacta del 3,08% en tareas de múltiples turnos, lo que revela un colapso del rendimiento de 20 veces desde escenarios de una sola herramienta a múltiples turnos.
FinTrace evalúa 13 LLM en 800 trayectorias de tareas financieras anotadas por expertos a través de 9 métricas, encontrando que los modelos de frontera logran una sólida selección de herramientas (F1 ~0,9) pero solo obtienen 3,23/5 en utilización de información, el paso donde los agentes razonan sobre lo que devuelven las herramientas.
FinToolBench combina 760 herramientas de API financieras en vivo con 295 consultas ejecutables para evaluar agentes de LLM en tareas financieras del mundo real, encontrando que la tasa de invocación conservadora del 22,7% de GPT-4o produce una mayor calidad de respuesta (CSS 0,670) que la TIR agresiva del 87,1% de Qwen3-8B, mientras que el desajuste de intención supera el 50% en todos los modelos probados.
OmniEval (EMNLP 2025) evalúa los sistemas RAG en 5 tipos de tareas × 16 temas financieros utilizando 11,4 mil casos de prueba autogenerados. Los mejores sistemas logran solo un 36% de precisión numérica; evidencia concreta de que los flujos RAG necesitan capas de validación antes de escribir en libros contables financieros estructurados.
Una lectura crítica del estudio de Xu y Ding para NAACL 2025 sobre detección de anomalías y OOD basada en LLM. La taxonomía detección vs. generación se mantiene, pero la casi total ausencia de cobertura tabular obliga a los profesionales de la IA financiera a sintetizar ellos mismos las ideas de los modelos de visión.