MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.
FinanceBench evalúa 16 configuraciones de IA frente a 10,231 preguntas de presentaciones reales ante la SEC; el RAG de almacenamiento de vectores compartido responde correctamente solo el 19% de las veces, e incluso GPT-4-Turbo con el pasaje del oráculo alcanza solo el 85% de precisión, lo que demuestra que el razonamiento numérico, no la recuperación, es la limitación crítica para la IA financiera empresarial.
FinMaster (arXiv:2505.13533) evalúa o3-mini, Claude 3.7 Sonnet y DeepSeek-V3 en 183 tareas financieras, revelando que los modelos obtienen un 96% en educación financiera pero colapsan al 3% en generación de estados financieros, con tareas de consultoría de múltiples pasos perdiendo 21 puntos de precisión por la propagación de errores.