FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبا نی میشوند، ارزیابی میکند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشاندهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تکابزاری به چند نوبتی است.
بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیهنویسی متخصص بر اساس ۹ معیار ارزیابی میکند و دریافت که مدلهای پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) میرسند، اما در بهرهوری اطلاعات — مرحلهای که عوامل بر روی نتایج ابزارها استدلال میکنند — تنها امتیاز ۳.۲۳ از ۵ را کسب میکنند.
FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرسوجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک میزند — و به این نتیجه میرسد که نرخ فراخوانی محافظهکارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه میدهد، در حالی که عدم تطابق قصد در تمام مدلهای آزمایششده بیش از ۵۰٪ است.
بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از دادههای مالی آموزش داد و در بنچمارکهای تحلیل احساسات و استدلال جدولی بر مدلهای عمومی پیروز شد — سپس GPT-4 بدون هیچ پیشآموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنههای پیشآموزش دامنه، توکنسازی اعداد و چرایی قابلاعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عاملهای حسابداری فاش میکند.