پرش به محتوای اصلی

FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدل‌های زبانی بزرگ برای وظایف مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

مقاله FinTrace (arXiv:2604.10015) یک هفته پس از FinToolBench که دفعه قبل ثبت کردم، منتشر شد و این دو مقاله در گفتگوی مستقیم با یکدیگر هستند. در حالی که FinToolBench اندازه‌گیری می‌کند که آیا یک عامل ابزارهای درستی را فراخوانی می‌کند یا خیر، FinTrace سوال دشوارتری را مطرح می‌کند: حتی زمانی که یک عامل ابزارهای درستی را فراخوانی می‌کند، آیا واقعاً روی نتایج استدلال می‌کند؟ این تمایز نقطه قوت مقاله و به نظر من، ریشه کل مشکل عامل بازنویسی (write-back) در Beancount است.

مقاله

2026-07-06-fintrace-trajectory-level-evaluation-llm-tool-calling-financial-tasks

کائو و همکاران، FinTrace را معرفی می‌کنند؛ بنچمارکی شامل ۸۰۰ مسیر (trajectory) با حاشیه‌نویسی متخصص که ۳۴ دسته از وظایف مالی دنیای واقعی را در سطوح دشواری آسان، متوسط و سخت در بر می‌گیرد. نویسندگان ارزیابی خود را حول مجموعه‌ای از ۹ معیار سازماندهی شده در چهار محور بنا می‌کنند: صحت عمل (F1 فراخوانی ابزار، ارتباط با وظیفه)، کارایی اجرا (کارایی گام‌ها، نمره افزونگی)، کیفیت فرآیند (پیشرفت منطقی، بهره‌وری اطلاعات، نمره پیشرفت) و کیفیت خروجی (نرخ موفقیت وظیفه، کیفیت پاسخ نهایی). آن‌ها ۱۳ مدل زبانی بزرگ را ارزیابی کرده و همچنین FinTrace-Training را منتشر می‌کنند که مجموعه‌ای از ۸,۱۹۶ مسیر ترجیحی انتخاب شده برای تنظیم دقیق (fine-tuning) است.

ادعای مرکزی این است که مدل‌های پیشرو در انتخاب ابزار مهارت یافته‌اند اما به طور سیستماتیک در مرحله دشوارتر شکست می‌خورند: استفاده از آنچه ابزارها برمی‌گردانند. این بنچمارک این موضوع را با یک مقیاس ۵ امتیازی برای بهره‌وری اطلاعات، پیشرفت منطقی و نمره پیشرفت، به اضافه معیارهای الگوریتمی برای F1 ابزار و کارایی گام‌ها بررسی می‌کند.

ایده‌های کلیدی

  • بهترین مدل، Claude-Opus-4.6، به امتیاز F1 فراخوانی ابزار ۰.۸۹۶ دست می‌یابد — که انتخاب قدرتمندی است — اما در بهره‌وری اطلاعات، که ضعیف‌ترین معیار در بین چهار معیار مربوط به خروجی است، تنها امتیاز ۳.۲۳ از ۵ را کسب می‌کند.
  • نرخ موفقیت وظیفه Claude-Opus-4.6 برابر ۲.۶۵ از ۵ و کیفیت پاسخ نهایی آن ۳.۳۴ از ۵ است؛ حتی برترین مدل نیز به طور مداوم پاسخ‌های صحیح و کامل تولید نمی‌کند.
  • مدل Qwen-3.5-9B الگوی ناقصی را نشان می‌دهد: کارایی گام (۱.۰۰۰) و افزونگی (۱.۰۰۰) نزدیک به کامل، زیرا تقریباً هیچ ابزاری را فراخوانی نمی‌کند که در F1 فراخوانی ابزار ۰.۱۰۹ منعکس شده است. کارآمد اما بی‌استفاده.
  • آموزش بر روی FinTrace-Training معیارهای فرآیند میانی را بهبود می‌بخشد (پیشرفت منطقی با DPO از ۲.۲۹ به ۲.۵۶ و نمره پیشرفت از ۲.۰۰ به ۲.۳۰ افزایش می‌یابد)، اما کیفیت پاسخ نهایی همچنان محدود باقی می‌ماند — هیچ نسخه‌ای در مدل‌های کوچک به طور قابل توجهی از میانگین ۱.۲۱ در مقیاس ۱ تا ۵ فراتر نمی‌رود.
  • روش DPO در سرکوب حالت‌های شکست فاجعه‌بار از SFT بهتر عمل می‌کند: سهم نمرات پیشرفت منطقی با امتیاز ۱، از ۱۱.۹٪ (SFT) به ۹.۵٪ (DPO) کاهش می‌یابد.
  • بدترین زیردسته در تمام ۱۳ مدل، «پرسش و پاسخ استدلالی» (Reasoning QA) است که در آن Claude-Opus-4.6 تنها به امتیاز کلی ۰.۶۲ دست می‌یابد — یک سقف سخت که حتی توسط قوی‌ترین مدل پیشرو نیز لمس می‌شود.

چه چیزی تایید می‌شود — و چه چیزی نه

یافته اصلی — اینکه انتخاب ابزار و استدلال بر روی ابزار قابل تفکیک هستند — انگیزه خوبی دارد و معیار چهار محوری یک مشارکت واقعی است. بنچمارک‌های قبلی مانند FinToolBench در ردیابی اجرا متوقف می‌شوند؛ FinTrace معیارهای کیفیت فرآیند قضاوت شده توسط LLM را اضافه می‌کند که نشان می‌دهد در این بین چه اتفاقی می‌افتد. ضریب کاپای کوهن ۰.۸۹ بین ارزیابان در اعتبارسنجی ۱۰۰ نمونه، برای بنچمارکی که بخشی از آن بر پایه داوران LLM است، امیدوارکننده است.

با این حال، چندین انتخاب روش‌شناختی، اعتبار اعداد را محدود می‌کند. ۳۴ دسته وظیفه در مقاله اصلی فهرست نشده‌اند — آن‌ها به ضمیمه B ارجاع داده شده‌اند — بنابراین نمی‌توانم بگویم چقدر نماینده عملکردهای مالی واقعی هستند. سطوح دشواری بر اساس رتبه‌های صدکی در میان مجموعه پرس‌وجوهای خود بنچمارک تعریف شده‌اند، که یک معیار دوری است: سخت فقط به معنای غیرمعمول نسبت به ۸۰۰ مسیر دیگر است، نه سخت به معنای مطلق.

تحلیل تنظیم دقیق ناامیدکننده است. آموزش یک مدل 9B بر روی FinTrace-Training استدلال میانی را بهبود می‌بخشد اما کیفیت پاسخ نهایی همچنان خراب باقی می‌ماند. مقاله این موضوع را به "قطع ارتباط" بین فرآیند و خروجی نسبت می‌دهد، اما علت آن را توضیح نمی‌دهد. محتمل‌ترین توضیح — اینکه یک مدل 9B فاقد یادآوری واقعیت‌ها و توانایی محاسباتی لازم برای وظایف مالی صرف نظر از کیفیت مسیر است — بی‌پاسخ مانده است. نمایش نتایج DPO فقط برای Qwen-3.5-9B نیز تشخیص اینکه آیا مدل‌های بزرگتر بهره بیشتری می‌برند یا خیر را غیرممکن می‌کند.

من همچنین نسبت به تجمیع نمرات کلی مشکوک هستم. ترکیب معیارهای الگوریتمی (F1 بین ۰ و ۱) با نمرات قضاوت شده توسط LLM در مقیاس‌های لیکرت ۱ تا ۵ از طریق نرمال‌سازی به [۰,۱] و میانگین‌گیری، انواع مختلف شکست را با هم در می‌آمیزد. مدلی که ابزارهای کاملاً اشتباه را فراخوانی می‌کند، از همان نوع خرابی مدلی نیست که ابزارهای درست را فراخوانی کرده و سپس خروجی را نادیده می‌گیرد.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

یافته اصلی مستقیماً با مشکل بازنویسی (write-back) در Beancount مرتبط است. عاملی که به طور قابل اعتماد ابزارهای رابط خط فرمان (CLI) درست Beancount را فراخوانی می‌کند اما سپس خروجی را اشتباه تفسیر می‌کند — مثلاً پاسخ ترازنامه را اشتباه تجزیه کرده و در حساب اشتباهی ثبت می‌کند — بدتر از عدم اتوماسیون است: این کار ثبتی‌های دفتری (ledger entries) با اطمینان کاذب تولید می‌کند که برای یک بازبین معمولی درست به نظر می‌رسند.

معیار بهره‌وری اطلاعات موردی است که من برای هر عامل Beancount با دقت زیر نظر می‌گیرم. این واقعیت که بهترین مدل موجود در یک بنچمارک مالی کنترل‌شده، امتیاز ۳.۲۳ از ۵ را در این زمینه کسب می‌کند، باید یک محدودیت اجباری برای هرگونه استقرار عملیاتی باشد. این موضوع بر لزوم بازبینی انسانی اجباری برای هر عملیات بازنویسی تأکید می‌کند، حداقل تا زمانی که ببینیم این نمره به طور مداوم بالای ۴.۰ می‌رود.

FinTrace همچنین آنچه ReDAct هفته گذشته پیشنهاد داد را تایید می‌کند: معماری درست، استدلال LLM به صورت سرتاسری (end-to-end) نیست، بلکه خط لوله‌ای است که تاییدیه را برون‌سپاری می‌کند. عاملی که ابزارها را به خوبی انتخاب می‌کند (F1 ابزار ~0.9) و سپس نتایج را قبل از اقدام به یک مرحله اعتبارسنجی جداگانه می‌سپارد، دفاع‌پذیرتر از عاملی است که سعی می‌کند در یک مرحله روی خروجی خام ابزار استدلال کند.

منابعی برای مطالعه بیشتر

  • FinMCP-Bench (arXiv:2603.24943): مقاله مکمل که از MCP به عنوان استاندارد رابط ابزار استفاده می‌کند و نفر بعدی در لیست مطالعه است — مستقیماً با FinTrace قابل مقایسه است اما بر روی لایه پروتکل متفاوتی ساخته شده است.
  • "Benchmarking LLM Tool-Use in the Wild" (arXiv:2604.06185): همزمان منتشر شده و فراخوانی ابزار را خارج از حوزه مالی ارزیابی می‌کند؛ مشخص می‌کند که آیا شکاف بهره‌وری اطلاعات مختص دامنه مالی است یا عمومی.
  • "Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA" (arXiv:2604.05387): همان حالت‌های شکست فراخوانی ابزار را از منظر داده‌های آموزشی هدف قرار می‌دهد و ممکن است توضیح دهد که DPO در FinTrace-Training چه چیزی را نادیده گرفته است.