FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدلهای زبانی بزرگ برای وظایف مالی
مقاله FinTrace (arXiv:2604.10015) یک هفته پس از FinToolBench که دفعه قبل ثبت کردم، منتشر شد و این دو مقاله در گفتگوی مستقیم با یکدیگر هستند. در حالی که FinToolBench اندازهگیری میکند که آیا یک عامل ابزارهای درستی را فراخوانی میکند یا خیر، FinTrace سوال دشوارتری را مطرح میکند: حتی زمانی که یک عامل ابزارهای درستی را فراخوانی میکند، آیا واقعاً روی نتایج استدلال میکند؟ این تمایز نقطه قوت مقاله و به نظر من، ریشه کل مشکل عامل بازنویسی (write-back) در Beancount است.
مقاله
کائو و همکاران، FinTrace را معرفی میکنند؛ بنچمارکی شامل ۸۰۰ مسیر (trajectory) با حاشیهنویسی متخصص که ۳۴ دسته از وظایف مالی دنیای واقعی را در سطوح دشواری آسان، متوسط و سخت در بر میگیرد. نویسندگان ارزیابی خود را حول مجموعهای از ۹ معیار سازماندهی شده در چهار محور بنا میکنند: صحت عمل (F1 فراخوانی ابزار، ارتباط با وظیفه)، کارایی اجرا (کارایی گامها، نمره افزونگی)، کیفیت فرآیند (پیشرفت منطقی، بهرهوری اطلاعات، نمره پیشرفت) و کیفیت خروجی (نرخ موفقیت وظیفه، کیفیت پاسخ نهایی). آنها ۱۳ مدل زبانی بزرگ را ارزیابی کرده و همچنین FinTrace-Training را منتشر میکنند که مجموعهای از ۸,۱۹۶ مسیر ترجیحی انتخاب شده برای تنظیم دقیق (fine-tuning) است.
ادعای مرکزی این است که مدلهای پیشرو در انتخاب ابزار مهارت یافتهاند اما به طور سیستماتیک در مرحله دشوارتر شکست میخورند: استفاده از آنچه ابزارها برمیگردانند. این بنچمارک این موضوع را با یک مقیاس ۵ امتیازی برای بهرهوری اطلاعات، پیشرفت منطقی و نمره پیشرفت، به اضافه معیارهای الگوریتمی برای F1 ابزار و کارایی گامها بررسی میکند.
ایدههای کلیدی
- بهترین مدل، Claude-Opus-4.6، به امتیاز F1 فراخوانی ابزار ۰.۸۹۶ دست مییابد — که انتخاب قدرتمندی است — اما در بهرهوری اطلاعات، که ضعیفترین معیار در بین چهار معیار مربوط به خروجی است، تنها امتیاز ۳.۲۳ از ۵ را کسب میکند.
- نرخ موفقیت وظیفه Claude-Opus-4.6 برابر ۲.۶۵ از ۵ و کیفیت پاسخ نهایی آن ۳.۳۴ از ۵ است؛ حتی برترین مدل نیز به طور مداوم پاسخهای صحیح و کامل تولید نمیکند.
- مدل Qwen-3.5-9B الگوی ناقصی را نشان میدهد: کارایی گام (۱.۰۰۰) و افزونگی (۱.۰۰۰) نزدیک به کامل، زیرا تقریباً هیچ ابزاری را فراخوانی نمیکند که در F1 فراخوانی ابزار ۰.۱۰۹ منعکس شده است. کارآمد اما بیاستفاده.
- آموزش بر روی FinTrace-Training معیارهای فرآیند میانی را بهبود میبخشد (پیشرفت منطقی با DPO از ۲.۲۹ به ۲.۵۶ و نمره پیشرفت از ۲.۰۰ به ۲.۳۰ افزایش مییابد)، اما کیفیت پاسخ نهایی همچنان محدود باقی میماند — هیچ نسخهای در مدلهای کوچک به طور قابل توجهی از میانگین ۱.۲۱ در مقیاس ۱ تا ۵ فراتر نمیرود.
- روش DPO در سرکوب حالتهای شکست فاجعهبار از SFT بهتر عمل میکند: سهم نمرات پیشرفت منطقی با امتیاز ۱، از ۱۱.۹٪ (SFT) به ۹.۵٪ (DPO) کاهش می یابد.
- بدترین زیردسته در تمام ۱۳ مدل، «پرسش و پاسخ استدلالی» (Reasoning QA) است که در آن Claude-Opus-4.6 تنها به امتیاز کلی ۰.۶۲ دست مییابد — یک سقف سخت که حتی توسط قویترین مدل پیشرو نیز لمس میشود.
چه چیزی تایید میشود — و چه چیزی نه
یافته اصلی — اینکه انتخاب ابزار و استدلال بر روی ابزار قابل تفکیک هستند — انگیزه خوبی دارد و معیار چهار محوری یک مشارکت واقعی است. بنچمارکهای قبلی مانند FinToolBench در ردیابی اجرا متوقف میشوند؛ FinTrace معیارهای کیفیت فرآیند قضاوت شده توسط LLM را اضافه میکند که نشان میدهد در این بین چه اتفاقی میافتد. ضریب کاپای کوهن ۰.۸۹ بین ارزیابان در اعتبارسنجی ۱۰۰ نمونه، برای بنچمارکی که بخشی از آن بر پایه داوران LLM است، امیدوارکننده است.
با این حال، چندین انتخاب روششناختی، اعتبار اعداد را محدود میکند. ۳۴ دسته وظیفه در مقاله اصلی فهرست نشدهاند — آنها به ضمیمه B ارجاع داده شدهاند — بنابراین نمیتوانم بگویم چقدر نماینده عملکردهای مالی واقعی هستند. سطوح دشواری بر اساس رتبههای صدکی در میان مجموعه پرسوجوهای خود بنچمارک تعریف شدهاند، که یک معیار دوری است: سخت فقط به معنای غیرمعمول نسبت به ۸۰۰ مسیر دیگر است، نه سخت به معنای مطلق.
تحلیل تنظیم دقیق ناامیدکننده است. آموزش یک مدل 9B بر روی FinTrace-Training استدلال میانی را بهبود میبخشد اما کیفیت پاسخ نهایی همچنان خراب باقی میماند. مقاله این موضوع را به "قطع ارتباط" بین فرآیند و خروجی نسبت میدهد، اما علت آن را توضیح نمیدهد. محتملترین توضیح — اینکه یک مدل 9B فاقد یادآوری واقعیتها و توانایی محاسباتی لازم برای وظایف مالی صرف نظر از کیفیت مسیر است — بیپاسخ مانده است. نمایش نتایج DPO فقط برای Qwen-3.5-9B نیز تشخیص اینکه آیا مدلهای بزرگتر بهره بیشتری میبرند یا خیر را غیرممکن میکند.
من همچنین نسبت به تجمیع نمرات کلی مشکوک هستم. ترکیب معیارهای الگوریتمی (F1 بین ۰ و ۱) با نمرات قضاوت شده توسط LLM در مقیاسهای لیکرت ۱ تا ۵ از طریق نرمالسازی به [۰,۱] و میانگینگیری، انواع مختلف شکست را با هم در میآمیزد. مدلی که ابزارهای کاملاً اشتباه را فراخوانی میکند، از همان نوع خرابی مدلی نیست که ابزارهای درست را فراخوانی کرده و سپس خروجی را نادیده میگیرد.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
یافته اصلی مستقیماً با مشکل بازنویسی (write-back) در Beancount مرتبط است. عاملی که به طور قابل اعتماد ابزارهای رابط خط فرمان (CLI) درست Beancount را فراخوانی میکند اما سپس خروجی را اشتباه تفسیر میکند — مثلاً پاسخ ترازنامه را اشتباه تجزیه کرده و در حساب اشتباهی ثبت میکند — بدتر از عدم اتوماسیون است: این کار ثبتیهای دفتری (ledger entries) با اطمینان کاذب تولید میکند که برای یک بازبین معمولی درست به نظر میرسند.
معیار بهرهوری اطلاعات موردی است که من برای هر عامل Beancount با دقت زیر نظر میگیرم. این واقعیت که بهترین مدل موجود در یک بنچمارک مالی کنترلشده، امتیاز ۳.۲۳ از ۵ را در این زمینه کسب میکند، باید یک محدودیت اجباری برای هرگونه استقرار عملیاتی باشد. این موضوع بر لزوم بازبینی انسانی اجباری برای هر عملیات بازنویسی تأکید میکند، حداقل تا زمانی که ببینیم این نمره به طور مداوم بالای ۴.۰ میرود.
FinTrace همچنین آنچه ReDAct هفته گذشته پیشنهاد داد را تایید میکند: معماری درست، استدلال LLM به صورت سرتاسری (end-to-end) نیست، بلکه خط لولهای است که تاییدیه را برونسپاری میکند. عاملی که ابزارها را به خوبی انتخاب میکند (F1 ابزار ~0.9) و سپس نتایج را قبل از اقدام به یک مرحله اعتبارسنجی جداگانه میسپارد، دفاعپذیرتر از عاملی است که سعی میکند در یک مرحله روی خروجی خام ابزار استدلال کند.
منابعی برای مطالعه بیشتر
- FinMCP-Bench (arXiv:2603.24943): مقاله مکمل که از MCP به عنوان استاندارد رابط ابزار استفاده میکند و نفر بعدی در لیست مطالعه است — مستقیماً با FinTrace قابل مقایسه است اما بر روی لایه پروتکل متفاوتی ساخته شده است.
- "Benchmarking LLM Tool-Use in the Wild" (arXiv:2604.06185): همزمان منتشر شده و فراخوانی ابزار را خارج از حوزه مالی ارزیابی میکند؛ مشخص میکند که آیا شکاف بهرهوری اطلاعات مختص دامنه مالی است یا عمومی.
- "Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA" (arXiv:2604.05387): همان حالتهای شکست فراخوانی ابزار را از منظر دادههای آموزشی هدف قرار میدهد و ممکن است توضیح دهد که DPO در FinTrace-Training چه چیز ی را نادیده گرفته است.