MultiHiertt (ACL 2022) представляє 10 440 пар запитань та відповідей із реальних фінансових звітів, які містять у середньому 3,89 ієрархічних таблиць кожна; найсучасніші моделі отримують 38% за показником F1 проти 87% у людей, зі штрафом у 15 балів для запитань, що стосуються кількох таблиць — що кількісно визначає розрив у пошуку даних, який має подолати ШІ у сфері фінансів.
FinanceBench оцінює 16 конфігурацій ШІ на основі 10 231 запитання з реальних звітів SEC; RAG із спільним векторним сховищем дає правильні відповіді лише у 19% випадків, і навіть GPT-4-Turbo з використанням фрагмента-оракула досягає лише 85% точності. Це свідчить про те, що саме чисельні міркування, а не пошук даних, є основним обмеженням для корпоративного фінансового ШІ.
FinMaster (arXiv:2505.13533) тестує o3-mini, Claude 3.7 Sonnet та DeepSeek-V3 у 183 фінансових завданнях — виявляючи, що моделі отримують 96% за фінансову грамотність, але падають до 3% у формуванні звітності, причому багатоетапні консалтингові завдання втрачають 21 пункт точності через поширення помилок.