MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.
FinanceBench avalua 16 configuracions d'IA amb 10.231 preguntes de documents reals de la SEC; el RAG de magatzem de vectors compartit respon correctament només el 19% de les vegades, i fins i tot GPT-4-Turbo amb el fragment d'oracle arriba només al 85% de precisió, cosa que demostra que el raonament numèric, i no la recuperació, és el factor limitant per a la IA en les finances empresarials.
FinMaster (arXiv:2505.13533) avalua o3-mini, Claude 3.7 Sonnet i DeepSeek-V3 en 183 tasques financeres, revelant que els models obtenen un 96% en cultura financera però col·lapsen fins al 3% en la generació d'estats financers, amb tasques de consultoria de diversos passos que perden 21 punts de precisió per la propagació d'errors.