FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان را پوشش میدهد. مدلهای برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست مییابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل میکند.
بنچمارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی میکند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمیرود، و سازماندهی ترکیبی، نیت پنهان و انتقالهای دستورالعمل سه مورد از جدیترین حالتهای شکست هستند.
یک بررسی سیستماتیک از روشهای تخمین اعتماد و کالیبراسیون در مدلهای زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان میدهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست مییابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عاملهای آگاه به عدم قطعیت در امور مالی و حسابداری دارد.
FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرسوجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک میزند — و به این نتیجه میرسد که نرخ فراخوانی محافظهکارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه میدهد، در حالی که عدم تطابق قصد در تمام مدلهای آزمایششده بیش از ۵۰٪ است.
OmniEval (EMNLP 2025) سیستمهای RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک میکند. بهترین سیستمها تنها به ۳۶٪ دقت عددی دست مییابند — مدرکی عینی مبنی بر اینکه خط لولههای RAG پیش از نوشتن در دفترکلهای مالی ساختاریافته، به لایههای اعتبارسنجی نیاز دارند.
خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقهبندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش دادههای جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینشها را از مدلهای بینایی استخراج کنند.
یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزنهای توجه مدل زبانی بزرگ کسر میکند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شدهاند، بازیابی میکند — و این موضوع چه معنایی برای خط لولههای عاملهای تخصصی مالی دارد.
بنچمارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی میکند. نتایج نشاندهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.
بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرسوجوی واقعی تحلیلگران صندوقهای پوشش ریسک در برابر پروندههای 10-K شاخص S&P 500 محک میزند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست میآورد و پرسوجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت میشوند — شواهدی بر اینکه عادیسازی پرسوجو، و نه جاسازیهای بهتر، اولین راه حل برای خط لولههای هوش مصنوعی مالی است.
مقاله TACL 2024 توسط لیو و همکاران نشان میدهد که مدل های زبانی بزرگ در اطلاعاتی که در میان زمینههای طولانی پنهان شدهاند، تا ۲۰ امتیاز ضعیفتر عمل میکنند — یک افت عملکرد U-شکل که بر تمام مدلهای آزمایششده از جمله Claude-1.3-100K تأثیر میگذارد — با پیامدهای ملموس برای نحوه ترتیببندی قطعات بازیابی شده در خط لولههای RAG در کاربردهای مالی و حسابداری.