MultiHiertt (ACL 2022) представя 10 440 двойки въпроси и отговори от реални финансови отчети със средно 3,89 йерархични таблици всеки; съвременните модели постигат 38% F1 срещу 87% за хората, с 15 точки наказание за въпроси между различни таблици — количествено измерване на разликата в извличането, която финансовият AI трябва да преодолее.
FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.
FinMaster (arXiv:2505.13533) тества o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансови задачи — разкривайки, че моделите постигат 96% при финансовата грамотност, но се сриват до 3% при генерирането на отчети, като многостепенните консултантски задачи губят 21 пункта точност поради разпространение на грешки.