پرش به محتوای اصلی
Fintech

همه چیز درباره Fintech

4 مقاله
Financial technology research, platforms, and infrastructure for modern accounting systems

FinMCP-Bench: معیار سنجش عامل‌های LLM برای استفاده از ابزارهای مالی واقعی تحت MCP

FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی می‌شوند، ارزیابی می‌کند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشان‌دهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تک‌ابزاری به چند نوبتی است.

FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدل‌های زبانی بزرگ برای وظایف مالی

بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیه‌نویسی متخصص بر اساس ۹ معیار ارزیابی می‌کند و دریافت که مدل‌های پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) می‌رسند، اما در بهره‌وری اطلاعات — مرحله‌ای که عوامل بر روی نتایج ابزارها استدلال می‌کنند — تنها امتیاز ۳.۲۳ از ۵ را کسب می‌کنند.

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

BloombergGPT و محدودیت‌های مدل‌های زبانی بزرگ تخصصی در امور مالی

بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از داده‌های مالی آموزش داد و در بنچ‌مارک‌های تحلیل احساسات و استدلال جدولی بر مدل‌های عمومی پیروز شد — سپس GPT-4 بدون هیچ پیش‌آموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنه‌های پیش‌آموزش دامنه، توکن‌سازی اعداد و چرایی قابل‌اعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عامل‌های حسابداری فاش می‌کند.