MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.
FinanceBench vyhodnocuje 16 konfigurácií AI voči 10 231 otázkam z reálnych výkazov SEC; RAG so zdieľaným vektorovým úložiskom odpovedá správne len v 19 % prípadov a dokonca aj GPT-4-Turbo s ideálnym textovým úryvkom (oracle passage) dosahuje len 85 % presnosť — čo ukazuje, že numerické uvažovanie, nie vyhľadávanie, je hlavným obmedzením pre podnikovú finančnú AI.
FinMaster (arXiv:2505.13533) porovnáva modely o3-mini, Claude 3.7 Sonnet a DeepSeek-V3 v 183 finančných úlohách – odhaľuje, že modely dosahujú 96 % vo finančnej gramotnosti, ale klesajú na 3 % pri generovaní výkazov, pričom viacstupňové konzultačné úlohy strácajú 21 bodov presnosti v dôsledku šírenia chýb.