FinMCP-Bench: معیار سنجش عاملهای LLM برای استفاده از ابزارهای مالی واقعی تحت MCP
MCP به استاندارد دوفاکتوی سیمکشی برای استفاده از ابزارهای LLM تبدیل شده است — Anthropic آن را در اواخر سال ۲۰۲۴ معرفی کرد و تا اوایل سال ۲۰۲۶ تمام ارائهدهندگان مدلهای بزرگ آن را پذیرفتند. FinMCP-Bench (arXiv:2603.24943, ICASSP 2026) اولین معیار سنجشی است که بر پایه سرورهای ابزار واقعی MCP مخصوص عاملهای مالی ساخته شده است و درست در زمانی ارائه شد که به ما بگوید آیا این لولهکشی استاندارد واقعاً به عاملها در انجام کارهای مالی مفید کمک میکند یا خیر.
مقالهی علمی
جی ژو، ییمین تیان و همکارانشان از تیم Qwen DianJin در Alibaba Cloud، مدیریت ثروت YINGMI و دانشگاه سوچو، FinMCP-Bench را معرفی میکنند؛ یک مجموعه ارزیابی با ۶۱۳ نمونه که ۱۰ دسته سناریوی مالی و ۳۳ زیرسناریو را پوشش میدهد. ابزارها شبیهسازی شده نیستند — ۶۵ سرور ابزار مالی واقعی و سازگار با MCP پشتوانهی این معیار سنجش هستند که از لاگهای تولیدی واقعی دستیار مالی Qieman APP استخراج شدهاند. نویسندگان نمونهها را به سه نوع دستهبندی میکنند: ۱۴۵ مورد تکابزاری، ۲۴۹ مورد چندابزاری و ۲۱۹ مورد چند نوبتی. آنها شش مدل را آزمایش میکنند: خانواده Qwen3 با تعداد پارامترهای ۴ میلیارد، ۳۰ میلیارد و ۲۳۵ میلیارد (همگی با تفکر گسترده)، به علاوه DeepSeek-R1، GPT-OSS-20B و Seed-OSS-36B. معیارهای اصلی ارزیابی عبارتند از: دقت ابزار (Tool Precision)، بازیابی ابزار (Tool Recall)، امتیاز F1 ابزار و نرخ تطبیق دقیق (EMR) که مستلزم آن است که هر فراخوانی ابزار در یک توالی دقیقاً درست باشد.
ایدههای کلیدی
- MCP به عنوان بستر ارزیابی: استفاده از تعاریف واقعی سرور MCP به جای طرحهای API مصنوعی، شکاف بزرگ بین ارزیابی معیار سنجش و آنچه عاملها واقعاً در سیستمهای مالی مستقر شده با آن روبرو هستند را پر میکند.
- تقسیمبندی دشواری سهگانه: نمونههای تکابزاری، چندابزاری و چند نوبتی صرفاً تفاوت کمی ندارند — آنها حالتهای شکست متفاوتی را از نظر کیفی آشکار میکنند.
- فروپاشی چند نوبتی: بهترین مدل (Qwen3-235B) به ۶۰٪ EMR در تکابزاری، ۱۰.۶۲٪ EMR در چندابزاری و ۳.۰۸٪ EMR در چند نوبتی دست مییابد. افت از تکابزاری به چند نوبتی ۲۰ برابر است.
- Tool F1 بخشندهتر است: همان مدل در این سه تنظیمات به ترتیب امتیازهای ۶۶.۸۵٪، ۶۹.۴۲٪ و ۴۱.۵۶٪ TF1 را کسب میکند — که نشان میدهد مدلها اغلب ابزارهای درست را انتخاب میکنند اما در ترتیببندی، پارامترگذاری یا پیگیری گفتگو دچار اشتباه میشوند.
- برتری بازیابی نسبت به دقت در تکابزاری: مدلها تمایل دارند در صورت عدم اطمینان، ابزارها را ب یش از حد فراخوانی کنند تا کمتر از حد، که حالت شکست ایمنتری برای وظایف مالی است اما همچنان به معنای فراخوانیهای API هدر رفته و نویز در مسیر استدلال است.
- مقیاسپذیری غیریکنواخت اندازه: Qwen3-30B به طور مداوم در تمام زیرسناریوها از Qwen3-4B بهتر عمل نمیکند و این فرض را که مدلهای بزرگتر همیشه در استفاده از ابزارهای چند مرحلهای پیروز میشوند، میشکند.
چه چیزی پابرجا میماند و چه چیزی نه
استفاده از لاگهای تولیدی واقعی به عنوان منبع برای مثالهای تکابزاری، قویترین انتخاب روششناختی در اینجا است. این کار معیار سنجش را به رفتار واقعی کاربر متصل میکند تا سناریوهای ابداع شده توسط پژوهشگران، که در ادبیات هوش مصنوعی مالی نادر است. نمونههای چندابزاری و چند نوبتی با استفاده از گرافهای وابستگی و پرامپتهای نقشآفرینی به صورت مصنوعی گسترش یافتهاند، که با توجه به هزینه برچسبگذاری معقول است، اما ریسکی را به همراه دارد: فرآیند ترکیب تمایل دارد پرسوجوهای تمیزتر و واضحتری نسبت به آنچه کاربران واقعی مینویسند تولید کند. EMR ۳.۰۸ درصدی در چند نوبتی نگرانکننده است اما باید با دقت تفسیر شود — EMR مستلزم آن است که کل توالی دقیقاً درست باشد، بنابراین یک فراخوانی اشتباه ابزار میانی باعث شکست کل وظیفه میشود. این یک استاندارد تولید سختگیرانه و مسلماً غیرواقعی است؛ معیارهای امتیازدهی جزئی مانند TF1 داستان دقیقتری را بیان میکنند.
آنچه مقاله به آن نمیپردازد: تحلیلی وجود ندارد که آیا شکاف عملکرد در درجه اول یک مشکل درک ورودی است (مدل آنچه را که کاربر میخواهد اشتباه تفسیر میکند)، یک مشکل قالببندی خروجی (قصد درست اما فراخوانی ابزار بدشکل)، یا یک مشکل استدلال (نتایج میانی اشتباه). بدون این تجزیه و تحلیل، سخت است بدانیم تلاش مهندسی را باید کجا سرمایهگذاری کرد. مقاله همچنین مدلها را به صورت ایزوله ارزیابی میکند؛ هیچ آزمونی وجود ندارد که آیا افزودن یک مرحله تأیید یا تامل (reflection) تصویر چند نوبتی را تغییر میدهد یا خیر.
این معیار سنجش همچنین عمیقاً به ۶۵ ابزار خاص Qieman وابسته است، که انتقال نتایج به سایر پلتفرمهای مالی با موجودی ابزارهای متفاوت را محدود میکند.
چرا این برای هوش مصنوعی مالی مهم است
FinMCP-Bench نزدیکترین ارزیابی منتشر شده به کاری است که یک عامل نوشتن (write-back) در Beancount واقعاً انجام میدهد: دریافت درخواست کاربر، شناسایی اینکه کدام ابزار (یا زنجیرهای از ابزارها) کاربرد دارد، فر اخوانی آنها به ترتیب و مدیریت نوبتهای بعدی. EMR ۳.۰۸ درصدی در چند نوبتی، یک واقعیت تلخ است. یک عامل Beancount که اصلاح دفترکل چند مرحلهای را مدیریت میکند — مثلاً طبقهبندی مجدد مجموعهای از تراکنشها بین حسابها در یک بازه زمانی، سپس مطابقت (reconciliation) و سپس تولید گزارش — دقیقاً همان نوع وظیفه چند نوبتی و چندابزاری است که مدلهای فعلی تقریباً به طور کامل بر اساس استانداردهای تطبیق دقیق در آن شکست میخورند.
چارچوب MCP مستقیماً مرتبط است: API پایتون Beancount، رابط beanquery و لایه REST نرمافزار fava همگی میتوانند به عنوان سرورهای MCP بستهبندی شوند. FinMCP-Bench به ما میگوید که پروتکل گلوگاه نیست — بلکه استدلال روی توالیهای فراخوانی ابزار گلوگاه است.
یافتهای که نشان میدهد بازیابی ابزار از دقت فراتر میرود (مدلها بیش از حد فراخوانی میکنند) برای ایمنی عملیات نوشتن نیز مهم است: عاملی که ابزار تغییر دفترکل را زمانی فراخوانی میکند که فقط خواندن لازم بوده، میتواند دفترکل را بیصدا فاسد کند. معیارهای ارزیابی با سوگیری به سمت دقت (precision-biased)، و نه سوگیری به سمت بازیابی، باید سیگنال ایمنی اولیه برای عاملهای نوشتن باشند.
مطالب پیشنهادی برای مطالعه
- JSONSchemaBench (arXiv:2501.10868) — قابلیت اطمینان خروجی ساختاریافته را در ۱۰ هزار طرحواره JSON ارزیابی میکند؛ مستقیماً به این موضوع میپردازد که آیا شکستهای قالببندی فراخوانی ابزار در FinMCP-Bench یک مشکل رمزگشایی محدود شده است یا خیر.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — چارچوب آموزشی بنیادی استفاده از ابزار که FinMCP-Bench خود را در برابر آن قرار میدهد؛ درک کاوش درخت جستجوی اولعمق آن روشن میکند که روششناسی لاگ تولیدی FinMCP-Bench چه چیزی به آن اضافه میکند.
- WildToolBench (arXiv:2604.06185) — استفاده از ابزار را در پرسوجوهای واقعی کاربران در دنیای واقعی ارزیابی میکند؛ یافتهی آن مبنی بر اینکه هیچ مدلی در رفتار کاربران واقعی از دقت ۱۵٪ فراتر نمیرود، مکمل رویکرد لاگ تولیدی FinMCP-Bench است.