FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان را پوشش میدهد. مدلهای برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست مییابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل میکند.
بنچمارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی میکند. نتایج نشاندهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.
بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرسوجوی واقعی تحلیلگران صندوقهای پوشش ریسک در برابر پروندههای 10-K شاخص S&P 500 محک میزند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست میآورد و پرسوجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت میشوند — شواهدی بر اینکه عادیسازی پرسوجو، و نه جاسازیهای بهتر، اولین راه حل برای خط لولههای هوش مصنوعی مالی است.
DocFinQA قطعات منتخب ۷۰۰ کلمهای FinQA را با گزارشهای کامل ۱۲۳,۰۰۰ کلمهای SEC جایگزین میکند که منجر به افزایش ۱۷۵ برابری متن ورودی میشود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش میدهد. خط لولههای بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمیشوند و مدلهای با متن طولانی جایگزین مناسبی نیستند.
FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارشهای SEC XBRL آزمایش میکند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص میکند.
مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچمارکهای پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.
مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارشهای مالی واقعی با میانگین ۳.۸۹ جدول سلسلهمراتبی در هر گزارش است؛ مدلهای پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسانها کسب کردند، با جریمه ۱۵ امتیازی برای پرسشهای چندجدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمیسازی میکند.
ConvFinQA (EMNLP 2022) بنچمارک FinQA را به گفتگوهای چندنوبتی درباره گزارشهای سود S&P 500 گسترش میدهد و نشان میدهد که بهترین مدل تنظیمشده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست مییابد؛ این رقم در گفتگوهای ترکیبی چندوجهی، جایی که مدلها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش مییابد.
TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متنهای گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدلهای زبانی ۷ میلیاردی تنظیمشده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.
FinQA (EMNLP 2021) با ایجاد ۸,۲۸۱ جفت پرسش و پاسخ از گزارشهای سوددهی S&P 500 که نیازمند برنامههای محاسباتی چند مرحلهای هستند، بنا شده است. مدلهای عصبی در زمان انتشار امتیاز ۶۱٪ را در مقابل ۹۱٪ خبرگان انسانی کسب کردند؛ دقت در برنامههای سه مرحلهای یا بیشتر به ۲۲٪ کاهش مییابد. حالتهای شکست — ثابتهای حوزه، اتصال متقابل (cross-modality grounding)، طول زنجیره — مستقیماً با چالشهایی که امروزه ایجنتهای Beancount با آن روبرو هستند، همسو است.