FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان را پوشش میدهد. مدلهای برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست مییابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل میکند.
پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیهسازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار میدهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آنها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در میبرد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ میرسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست مییابند. گلوگاه اصلی: مدلهای زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشمپوشی میکنند و بر اساس وضعیت مالی منقضی عمل میکنند.
بنچمارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی میکند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمیرود، و سازماندهی ترکیبی، نیت پنهان و انتقالهای دستورالعمل سه مورد از جدیترین حالتهای شکست هستند.
بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش میکند و درمییابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده میشود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر میکند و هیچ چارچوبی تمام ۴۵ دستهبندی ویژگی JSON Schema را پوشش نمیدهد.
FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی میشوند، ارزیابی میکند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشاندهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تکابزاری به چند نوبتی است.
بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیهنویسی متخصص بر اساس ۹ معیار ارزیابی میکند و دریافت که مدلهای پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) میرسند، اما در بهرهوری اطلاعات — مرحلهای که عوامل بر روی نتایج ابزارها استدلال میکنند — تنها امتیاز ۳.۲۳ از ۵ را کسب میکنند.
FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرسوجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک میزند — و به این نتیجه میرسد که نرخ فراخوانی محافظهکارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه میدهد، در حالی که عدم تطابق قصد در تمام مدلهای آزمایششده بیش از ۵۰٪ است.
OmniEval (EMNLP 2025) سیستمهای RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک میکند. بهترین سیستمها تنها به ۳۶٪ دقت عددی دست مییابند — مدرکی عینی مبنی بر اینکه خط لولههای RAG پیش از نوشتن در دفترکلهای مالی ساختاریافته، به لایههای اعتبارسنجی نیاز دارند.
خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقهبندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش دادههای جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینشها را از مدلهای بینایی استخراج کنند.
یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزنهای توجه مدل زبانی بزرگ کسر میکند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شدهاند، بازیابی میکند — و این موضوع چه معنایی برای خط لولههای عاملهای تخصصی مالی دارد.