مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارشهای مالی واقعی با م یانگین ۳.۸۹ جدول سلسلهمراتبی در هر گزارش است؛ مدلهای پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسانها کسب کردند، با جریمه ۱۵ امتیازی برای پرسشهای چندجدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمیسازی میکند.
FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پروندههای واقعی SEC ارزیابی میکند؛ RAG با ذخیرهساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح میدهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ میرسد — این نشان میدهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.
بنچمارک FinMaster (arXiv:2505.13533) مدلهای o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی میکند—و نشان میدهد که این مدلها در سواد مالی امتیاز ۹۶٪ کسب میکنند اما در تولید صورتهای مالی به ۳٪ سقوط میکنند، و در وظایف مشاورهای چند مرحلهای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست میدهند.