FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی
اکثر بنچمارکهای هوش مصنوعی مالی آزمایش میکنند که آیا یک مدل میتواند سندی را بخواند یا خیر. FinToolBench آزمایش میکند که آیا یک مدل میتواند کاری انجام دهد — یک API زنده را فراخوانی کند، دادههای فعلی بازار را دریافت کند و پاسخ صحیحی ارائه دهد. این همان شکافی است که برای هر سیستمی که به دنبال اتوماسیون کارهای مالی واقعی است اهمیت دارد، و شکافی است که منتظر بودم کسی آن را به طور جدی پر کند.
مقاله
Jiaxuan Lu و همکارانش FinToolBench (arXiv:2603.08262، مارس ۲۰۲۶) را معرف ی کردند که به ادعای آنها اولین بنچمارک اجرایی و واقعی برای ارزیابی عوامل یادگیرنده ابزار مالی است. چارچوببندی آنها صریح است: ارزیابیهای فعلی هوش مصنوعی مالی بر پرسش و پاسخ استاتیک روی اسناد متمرکز هستند، در حالی که بنچمارکهای عمومی استفاده از ابزار مانند ToolLLM با امور مالی صرفاً به عنوان یک دسته API دیگر بدون محدودیتهای انطباق خاص دامنه برخورد میکنند. FinToolBench سعی میکند فضای بین این دو حالت شکست را پر کند.
این بنچمارک ۷۶۰ ابزار مالی اجرایی — شامل ۲۶۱ نقطه پایانی زنده از RapidAPI و ۴۹۹ رابط کاربری از AkShare — را با ۲۹۵ پرسوجوی ارزیابی که به دقت انتخاب شدهاند، جفت میکند که به ۱۶۶ مورد تکابزاری و ۱۲۹ مورد چندابزاری تقسیم میشوند. ابزارها دامنههای سهام، اوراق قرضه، صندوقها، فارکس، مشتقات، اقتصاد کلان و رمزارز را پوشش میدهند. نکته مهم این است که اینها APIهای واقعی و قابل فراخوانی هستند، نه کدهای شبیهسازی شده (stubs). نویسندگان همچنین FATR (Finance-Aware Tool Routing) را معرفی میکنند، یک عامل پایه که از بازیابی BGE-M3 (۲۰ کاندیدای برتر)، کارتهای ابزار حاشیهنویسی شده با ویژگیهای مالی و یک برنامهریز ReAct آگاه از محدودیتها که به پنج مرحله محدود شده است، استفاده میکند.
ایدههای کلیدی
- اجرا گلوگاه نیست — استدلال روی خروجیها گلوگاه است. GPT-4o دارای بالاترین امتیاز نرم شرطی (CSS = 0.670) است، به این معنی که وقتی با موفقیت ابزاری را فراخوانی میکند، پاسخهای درستی میدهد، اما تنها در ۲۲.۷٪ مواقع ابزارها را فراخوانی میکند (TIR = 0.227). در مقابل، Qwen3-8B در ۸۷.۱٪ مواقع ابزارها را فراخوانی میکند اما تنها در ۴۰.۴٪ از موارد موفقیت، به پاسخ درست میرسد.
- عدم تطابق قصد، شکست اصلی در انطباق (Compliance) است. نرخ عدم تطابق قصد (IMR) در اکثر مدلها از ۵۰٪ فراتر میرود، به این معنی که عوامل به طور معمول فراخوانیهایی با قصد تراکنشی انجام میدهند در حالی که پرسوجو فقط نیاز به جستجوی اطلاعاتی دارد. این یک مشکل جدی در زمینههای مالی تحت نظارت است.
- تزریق ویژگیهای مالی به انطباق کمک میکند بدون اینکه به تواناییها آسیب بزند. کارتهای ابزار در سیستم پایه FATR — که هر ابزار را با ویژگیهایی نظیر بهروز بودن، نوع قصد و دامنه نظارتی حاشیهنویسی میکند — فراخوانی دادههای قدیمی (TMR) و تخلفات دامن های (DMR) را بدون کاهش قابل توجه نرخ فراخوانی کاهش میدهند.
- پرسوجوهای چندابزاری شکاف قابلیت اطمینان را آشکار میکنند. ۱۲۹ پرسوجوی چندابزاری نیازمند زنجیرهای از فراخوانیها و انتقال خروجیها بین مراحل هستند؛ عملکرد در مقایسه با موارد تکابزاری به شدت افت میکند، که با یافتههای FinTrace و TheAgentCompany همخوانی دارد.
- مدلهای کوچک میتوانند در فراخوانی از مدلهای بزرگ پیشی بگیرند اما در استدلال نه. TIR مدل Qwen3-8B که ۰.۸۷۱ است در مقابل ۰.۲۲۷ مدل GPT-4o نشان میدهد که مدلهای کوچکتر در فراخوانی "شتابزدهتر" هستند، اما CER (نرخ اجرای شرطی) ۰.۳۳۹ برای Qwen3-8B در مقابل ۰.۶۱۸ برای GPT-4o نشان میدهد که GPT-4o زمانی که تصمیم به فراخوانی ابزار میگیرد، بسیار دقیقتر عمل میکند.
چه چیزی پابرجا میماند — و چه چیزی نه
انتخاب بنچمارک برای استفاده از APIهای واقعاً زنده و اجرایی، مشارکت اصلی و واقعی آن است. APIهای شبیهسازی شده (Mocked) راز کثیف بنچمارکهای استفاده از ابزار بودهاند: ۱۶,۰۰۰ API در ToolLLM تأثیرگذار به نظر میرسند تا زمانی که متوجه شوید ارزیابی از یک LLM به عنوان قاضی استفاده میکند تا حدس بزند آیا یک فراخوانی کار "میکرد" یا نه. FinToolBench از این موضوع اجتناب میکند.
معیارهای انطباق (TMR، IMR، DMR) از نظر مفهومی درست هستند — عوامل مالی باید تفاوت بین دریافت قیمت بسته شدن دیروز و شروع یک معامله را بدانند — اما توضیحات مقاله در مورد چگونگی اجرای این طبقهبندیها ضعیف است. مشخص نیست که آیا برچسبهای واقعیت پایه (ground-truth) برای نوع قصد (اطلاعاتی در مقابل تراکنشی) توسط کارشناسان حقوقی یا انطباق تأیید شدهاند یا صرفاً توسط نویسندگان مجموعه داده اختصاص یافتهاند. این موضوع در عمل بسیار حائز اهمیت است.
فهرست مدلها نیز به طور عجیبی محدود است: Doubao-Seed-1.6، Qwen3-8B، GLM-4.7-Flash و GPT-4o. هیچ خبری از Claude Sonnet یا Gemini 2.5 نیست که مقایسههای طبیعی محسوب میشدند. جدول نتایج نشان میدهد که GPT-4o یک داده پرت با دقت بالا اما پوشش کم است؛ من مشتاقم بدانم آیا رفتار استفاده از ابزار Claude به الگوی محافظهکارانه GPT-4o نزدیکتر است یا الگوی تهاجمی Qwen3-8B.
مجموعه ارزیابی ۲۹۵ پرسوجویی طبق استانداردهای بنچمارکهای مدرن کوچک است. با ۷۶۰ ابزار، نرخ پوشش ۲۹۵ پرسوجو به این معنی است که اکثر اب زارها هرگز آزمایش نمیشوند. مقاله آمار پوشش به ازای هر دامنه را گزارش نمیدهد، که به این معنی است که اعداد اصلی میتوانند تحت تأثیر زیرمجموعهای از دامنههای با پوشش خوب مانند سهام و اقتصاد کلان باشند.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
عوامل بازنویسی Beancount — هر عاملی که bean-add را فراخوانی میکند، یک فایل دفتر کل (ledger) را اصلاح میکند یا beanquery را اجرا میکند — دقیقاً با حالتهای شکستی روبرو هستند که FinToolBench آشکار میکند. مشکل عدم تطابق قصد مستقیماً ترجمه میشود: یک عامل Beancount که وقتی کاربر یک سوال خواندنی میپرسد، دستور نوشتن صادر میکند، همان امضای شکست IMR را دارد. بُعد بهروز بودن دادهها نیز به مشکل فراخوانی وضعیت دفتر کل کششده و قدیمی مربوط میشود، در حالی که کاربر انتظار موجودی فعلی را دارد.
تنش بین دقت و پوشش (GPT-4o در مقابل Qwen3-8B) نیز مستقیماً مرتبط است. برای بازنویسی Beancount، من رفتار فراخوانی محافظهکارانه GPT-4o را ترجیح میدهم — TIR پایین اما CER و CSS بالا — تا یک مدل با فراخوانی بالا که مکرراً ابزار اشتباه را اجرا میکند. هزینهی نوشتنهای اشتباه بسیار بیشتر از انجام ندادن هیچ عملیاتی (no-ops) است.
رویکرد FATR در حاشیهنویسی ابزارها با ویژگیهای انطباق به جای تکیه بر مدل برای استنتاج آنها، یک الگوی طراحی ارزشمند برای پذیرش است. بستهبندی ابزارهای CLI در Beancount با متادیتای صریح درباره اینکه آیا یک فراخوانی فقطخواندنی است یا تغییردهنده، و اینکه آیا به وضعیت فعلی دفتر کل دسترسی دارد یا بایگانیشده، همان ایدهای است که در مقیاسی کوچکتر اعمال میشود.
چه چیزی را بعداً بخوانیم
- FinTrace (arXiv:2604.10015) — ارزیابی در سطح مسیر در ۳۴ دسته وظایف مالی با ۹ معیار؛ مستقیماً ارزیابی تکفراخوانی FinToolBench را به توالیهای چند مرحلهای گسترش میدهد و Qwen-3.5-9B را با DPO برای بهبود استدلال میانی تنظیم دقیق میکند.
- FinMCP-Bench (arXiv:2603.24943) — ۶۱۳ نمونه روی ۶۵ ابزار مالی مبتنی بر MCP که فراخوانیهای تکابزار ی، چندابزاری و چند نوبتی را آزمایش میکند؛ چارچوب MCP مستقیماً با رابطهای ابزار Beancount مرتبط است.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — مقاله ToolBench که FinToolBench صراحتاً خود را در مقابل آن قرار میدهد؛ درک آنچه بنچمارکهای مبتنی بر API شبیهسازی شده میتوانند و نمیتوانند اندازهگیری کنند، روشن میکند که اجرایی بودن FinToolBench واقعاً چه ارزشی افزوده است.