FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

۱۴ تیر ۱۴۰۵ · زمان مطالعه 7 دقیقه

Mike Thrift

Marketing Manager

اکثر بنچمارک‌های هوش مصنوعی مالی آزمایش می‌کنند که آیا یک مدل می‌تواند سندی را بخواند یا خیر. FinToolBench آزمایش می‌کند که آیا یک مدل می‌تواند کاری انجام دهد — یک API زنده را فراخوانی کند، داده‌های فعلی بازار را دریافت کند و پاسخ صحیحی ارائه دهد. این همان شکافی است که برای هر سیستمی که به دنبال اتوماسیون کارهای مالی واقعی است اهمیت دارد، و شکافی است که منتظر بودم کسی آن را به طور جدی پر کند.

مقاله

2026-07-05-fintoolbench-evaluating-llm-agents-real-world-financial-tool-use

Jiaxuan Lu و همکارانش FinToolBench (arXiv:2603.08262، مارس ۲۰۲۶) را معرفی کردند که به ادعای آن‌ها اولین بنچمارک اجرایی و واقعی برای ارزیابی عوامل یادگیرنده ابزار مالی است. چارچوب‌بندی آن‌ها صریح است: ارزیابی‌های فعلی هوش مصنوعی مالی بر پرسش و پاسخ استاتیک روی اسناد متمرکز هستند، در حالی که بنچمارک‌های عمومی استفاده از ابزار مانند ToolLLM با امور مالی صرفاً به عنوان یک دسته API دیگر بدون محدودیت‌های انطباق خاص دامنه برخورد می‌کنند. FinToolBench سعی می‌کند فضای بین این دو حالت شکست را پر کند.

این بنچمارک ۷۶۰ ابزار مالی اجرایی — شامل ۲۶۱ نقطه پایانی زنده از RapidAPI و ۴۹۹ رابط کاربری از AkShare — را با ۲۹۵ پرس‌وجوی ارزیابی که به دقت انتخاب شده‌اند، جفت می‌کند که به ۱۶۶ مورد تک‌ابزاری و ۱۲۹ مورد چندابزاری تقسیم می‌شوند. ابزارها دامنه‌های سهام، اوراق قرضه، صندوق‌ها، فارکس، مشتقات، اقتصاد کلان و رمزارز را پوشش می‌دهند. نکته مهم این است که این‌ها APIهای واقعی و قابل فراخوانی هستند، نه کدهای شبیه‌سازی شده (stubs). نویسندگان همچنین FATR (Finance-Aware Tool Routing) را معرفی می‌کنند، یک عامل پایه که از بازیابی BGE-M3 (۲۰ کاندیدای برتر)، کارت‌های ابزار حاشیه‌نویسی شده با ویژگی‌های مالی و یک برنامه‌ریز ReAct آگاه از محدودیت‌ها که به پنج مرحله محدود شده است، استفاده می‌کند.

ایده‌های کلیدی

اجرا گلوگاه نیست — استدلال روی خروجی‌ها گلوگاه است. GPT-4o دارای بالاترین امتیاز نرم شرطی (CSS = 0.670) است، به این معنی که وقتی با موفقیت ابزاری را فراخوانی می‌کند، پاسخ‌های درستی می‌دهد، اما تنها در ۲۲.۷٪ مواقع ابزارها را فراخوانی می‌کند (TIR = 0.227). در مقابل، Qwen3-8B در ۸۷.۱٪ مواقع ابزارها را فراخوانی می‌کند اما تنها در ۴۰.۴٪ از موارد موفقیت، به پاسخ درست می‌رسد.
عدم تطابق قصد، شکست اصلی در انطباق (Compliance) است. نرخ عدم تطابق قصد (IMR) در اکثر مدل‌ها از ۵۰٪ فراتر می‌رود، به این معنی که عوامل به طور معمول فراخوانی‌هایی با قصد تراکنشی انجام می‌دهند در حالی که پرس‌وجو فقط نیاز به جستجوی اطلاعاتی دارد. این یک مشکل جدی در زمینه‌های مالی تحت نظارت است.
تزریق ویژگی‌های مالی به انطباق کمک می‌کند بدون اینکه به توانایی‌ها آسیب بزند. کارت‌های ابزار در سیستم پایه FATR — که هر ابزار را با ویژگی‌هایی نظیر به‌روز بودن، نوع قصد و دامنه نظارتی حاشیه‌نویسی می‌کند — فراخوانی داده‌های قدیمی (TMR) و تخلفات دامنه‌ای (DMR) را بدون کاهش قابل توجه نرخ فراخوانی کاهش می‌دهند.
پرس‌وجوهای چندابزاری شکاف قابلیت اطمینان را آشکار می‌کنند. ۱۲۹ پرس‌وجوی چندابزاری نیازمند زنجیره‌ای از فراخوانی‌ها و انتقال خروجی‌ها بین مراحل هستند؛ عملکرد در مقایسه با موارد تک‌ابزاری به شدت افت می‌کند، که با یافته‌های FinTrace و TheAgentCompany همخوانی دارد.
مدل‌های کوچک می‌توانند در فراخوانی از مدل‌های بزرگ پیشی بگیرند اما در استدلال نه. TIR مدل Qwen3-8B که ۰.۸۷۱ است در مقابل ۰.۲۲۷ مدل GPT-4o نشان می‌دهد که مدل‌های کوچک‌تر در فراخوانی "شتاب‌زده‌تر" هستند، اما CER (نرخ اجرای شرطی) ۰.۳۳۹ برای Qwen3-8B در مقابل ۰.۶۱۸ برای GPT-4o نشان می‌دهد که GPT-4o زمانی که تصمیم به فراخوانی ابزار می‌گیرد، بسیار دقیق‌تر عمل می‌کند.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

انتخاب بنچمارک برای استفاده از APIهای واقعاً زنده و اجرایی، مشارکت اصلی و واقعی آن است. APIهای شبیه‌سازی شده (Mocked) راز کثیف بنچمارک‌های استفاده از ابزار بوده‌اند: ۱۶,۰۰۰ API در ToolLLM تأثیرگذار به نظر می‌رسند تا زمانی که متوجه شوید ارزیابی از یک LLM به عنوان قاضی استفاده می‌کند تا حدس بزند آیا یک فراخوانی کار "می‌کرد" یا نه. FinToolBench از این موضوع اجتناب می‌کند.

معیارهای انطباق (TMR، IMR، DMR) از نظر مفهومی درست هستند — عوامل مالی باید تفاوت بین دریافت قیمت بسته شدن دیروز و شروع یک معامله را بدانند — اما توضیحات مقاله در مورد چگونگی اجرای این طبقه‌بندی‌ها ضعیف است. مشخص نیست که آیا برچسب‌های واقعیت پایه (ground-truth) برای نوع قصد (اطلاعاتی در مقابل تراکنشی) توسط کارشناسان حقوقی یا انطباق تأیید شده‌اند یا صرفاً توسط نویسندگان مجموعه داده اختصاص یافته‌اند. این موضوع در عمل بسیار حائز اهمیت است.

فهرست مدل‌ها نیز به طور عجیبی محدود است: Doubao-Seed-1.6، Qwen3-8B، GLM-4.7-Flash و GPT-4o. هیچ خبری از Claude Sonnet یا Gemini 2.5 نیست که مقایسه‌های طبیعی محسوب می‌شدند. جدول نتایج نشان می‌دهد که GPT-4o یک داده پرت با دقت بالا اما پوشش کم است؛ من مشتاقم بدانم آیا رفتار استفاده از ابزار Claude به الگوی محافظه‌کارانه GPT-4o نزدیک‌تر است یا الگوی تهاجمی Qwen3-8B.

مجموعه ارزیابی ۲۹۵ پرس‌وجویی طبق استانداردهای بنچمارک‌های مدرن کوچک است. با ۷۶۰ ابزار، نرخ پوشش ۲۹۵ پرس‌وجو به این معنی است که اکثر ابزارها هرگز آزمایش نمی‌شوند. مقاله آمار پوشش به ازای هر دامنه را گزارش نمی‌دهد، که به این معنی است که اعداد اصلی می‌توانند تحت تأثیر زیرمجموعه‌ای از دامنه‌های با پوشش خوب مانند سهام و اقتصاد کلان باشند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

عوامل بازنویسی Beancount — هر عاملی که bean-add را فراخوانی می‌کند، یک فایل دفتر کل (ledger) را اصلاح می‌کند یا beanquery را اجرا می‌کند — دقیقاً با حالت‌های شکستی روبرو هستند که FinToolBench آشکار می‌کند. مشکل عدم تطابق قصد مستقیماً ترجمه می‌شود: یک عامل Beancount که وقتی کاربر یک سوال خواندنی می‌پرسد، دستور نوشتن صادر می‌کند، همان امضای شکست IMR را دارد. بُعد به‌روز بودن داده‌ها نیز به مشکل فراخوانی وضعیت دفتر کل کش‌شده و قدیمی مربوط می‌شود، در حالی که کاربر انتظار موجودی فعلی را دارد.

تنش بین دقت و پوشش (GPT-4o در مقابل Qwen3-8B) نیز مستقیماً مرتبط است. برای بازنویسی Beancount، من رفتار فراخوانی محافظه‌کارانه GPT-4o را ترجیح می‌دهم — TIR پایین اما CER و CSS بالا — تا یک مدل با فراخوانی بالا که مکرراً ابزار اشتباه را اجرا می‌کند. هزینه‌ی نوشتن‌های اشتباه بسیار بیشتر از انجام ندادن هیچ عملیاتی (no-ops) است.

رویکرد FATR در حاشیه‌نویسی ابزارها با ویژگی‌های انطباق به جای تکیه بر مدل برای استنتاج آن‌ها، یک الگوی طراحی ارزشمند برای پذیرش است. بسته‌بندی ابزارهای CLI در Beancount با متادیتای صریح درباره اینکه آیا یک فراخوانی فقط‌خواندنی است یا تغییردهنده، و اینکه آیا به وضعیت فعلی دفتر کل دسترسی دارد یا بایگانی‌شده، همان ایده‌ای است که در مقیاسی کوچک‌تر اعمال می‌شود.

چه چیزی را بعداً بخوانیم

FinTrace (arXiv:2604.10015) — ارزیابی در سطح مسیر در ۳۴ دسته وظایف مالی با ۹ معیار؛ مستقیماً ارزیابی تک‌فراخوانی FinToolBench را به توالی‌های چند مرحله‌ای گسترش می‌دهد و Qwen-3.5-9B را با DPO برای بهبود استدلال میانی تنظیم دقیق می‌کند.
FinMCP-Bench (arXiv:2603.24943) — ۶۱۳ نمونه روی ۶۵ ابزار مالی مبتنی بر MCP که فراخوانی‌های تک‌ابزاری، چندابزاری و چند نوبتی را آزمایش می‌کند؛ چارچوب MCP مستقیماً با رابط‌های ابزار Beancount مرتبط است.
ToolLLM (arXiv:2307.16789, ICLR 2024) — مقاله ToolBench که FinToolBench صراحتاً خود را در مقابل آن قرار می‌دهد؛ درک آنچه بنچمارک‌های مبتنی بر API شبیه‌سازی شده می‌توانند و نمی‌توانند اندازه‌گیری کنند، روشن می‌کند که اجرایی بودن FinToolBench واقعاً چه ارزشی افزوده است.

Share on Twitter Follow @beancount_io

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

مقاله

ایده‌های کلیدی

چه چیزی پابرجا می‌ماند — و چه چیزی نه

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

چه چیزی را بعداً بخوانیم

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله​

ایده‌های کلیدی​

چه چیزی پابرجا می‌ماند — و چه چیزی نه​

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد​

چه چیزی را بعداً بخوانیم​

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله

ایده‌های کلیدی

چه چیزی پابرجا می‌ماند — و چه چیزی نه

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

چه چیزی را بعداً بخوانیم