پرش به محتوای اصلی

FinBen: ارزیابی مقایسه‌ای مدل‌های زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری

· زمان مطالعه 7 دقیقه
Tian Pan
Research Engineer

FinBen در NeurIPS 2024 به عنوان جامع‌ترین ارزیابی عمومی مدل‌های زبانی بزرگ (LLM) در وظایف مالی تا به امروز معرفی شد. من مشتاق مطالعه دقیق آن بودم، زیرا پیش از طراحی هرگونه عامل خودمختار روی دفترکل‌های Beancount، به تصویری واقع‌بینانه از جایگاه مدل‌های پیشرو در وظایف استدلال مالی که چنین عاملی باید انجام دهد، نیاز داشتم.

مقاله

2026-04-15-finben-financial-llm-benchmark

کیان‌کیان شیه (Qianqian Xie) و ۳۳ نویسنده همکار، FinBen را معرفی می‌کنند؛ یک بنچمارک متن‌باز که ۳۶ مجموعه داده را در ۲۴ وظیفه مالی پوشش می‌دهد و در هفت بعد سازماندهی شده است: استخراج اطلاعات، تحلیل متنی، پرسش و پاسخ، تولید متن، مدیریت ریسک، پیش‌بینی و تصمیم‌گیری. آن‌ها ۱۵ مدل زبانی بزرگ شاخص — از جمله GPT-4، ChatGPT، Gemini و چندین مدل متن‌باز تنظیم‌شده با دستورالعمل (instruction-tuned) — را ارزیابی کرده و سه مجموعه داده جدید برای تلخیص، پرسش و پاسخ و ارزیابی معاملات سهام معرفی کرده‌اند.

انگیزه اصلی این است که بنچمارک‌های مالی قبلی مانند FLUE و FLARE هر کدام تنها بخشی از پردازش زبان طبیعی (NLP) مالی را پوشش می‌دادند، اما هیچ‌کدام به کل چرخه نزدیک نبودند. FinBen اولین تلاش برای پوشش کل این زنجیره در یک جا است و در بخش مجموعه‌داده‌ها و بنچمارک‌های NeurIPS 2024 پذیرفته شده است که به آن اعتبار متدولوژیک معقولی می‌بخشد.

ایده‌های کلیدی

  • در بازشناسی موجودیت‌های نام‌گذاری شده (NER)، مدل GPT-4 امتیاز ۰.۸۳ را در مجموعه داده FINER-ORD کسب کرده است — که قوی است، اما این ساده‌ترین دسته در این بنچمارک محسوب می‌شود.
  • در FinQA (استدلال عددی روی گزارش‌های مالی)، GPT-4 به تطابق دقیق (Exact Match) ۰.۶۳ می‌رسد؛ در نسخه محاوره‌ای ConvFinQA، امتیاز ۰.۷۶ را کسب می‌کند. این‌ها نتایج قابل احترامی هستند اما هنوز تا حل کامل فاصله دارند.
  • مدل FinMA 7B که روی دامنه مالی تنظیم دقیق شده است، در تحلیل احساسات FPB به امتیاز ۰.۸۸ (F1) دست یافته و در این وظیفه خاص از GPT-4 پیشی گرفته است؛ این موضوع تایید می‌کند که تنظیم دقیق (fine-tuning) هنوز در طبقه‌بندی‌های مشخص، مزیت ایجاد می‌کند.
  • پیش‌بینی حرکت سهام واضح‌ترین مورد شکست است: حتی GPT-4 دقت تقریبی ۰.۵۴ را ثبت کرده است که به سختی بالاتر از تصادف است. نویسندگان این موضوع را «یک نقص قابل توجه در توانایی مدل‌های زبانی برای مقابله با پیش‌بینی» می‌نامند.
  • GPT-4 در وظیفه معاملاتی به نسبت شارپ ۱.۵۱ در مقابل ۱.۰۳ برای Gemini و بازده تجمعی ۲۸.۱۹٪ در مقابل بازده ۴.۰۰-٪ استراتژی «بخر و نگه دار» در دوره ارزیابی دست یافت — اما این یک بک‌تست کوتاه با تمام محدودیت‌های معمول است.
  • تمامی مدل‌ها در تلخیص استخراجی امتیاز صفر گرفتند و GPT-4 در استخراج روابط امتیاز ۰.۰۱ (F1) را کسب کرد. توانمندی‌ها در خارج از محدوده امن طبقه‌بندی متن و تولید باز، به شدت کاهش می‌یابند.

چه چیزی معتبر است — و چه چیزی نیست

این بنچمارک به عنوان یک ابزار بررسی واقعاً مفید است. طیف وظایف گسترده‌تر از هر چیزی است که قبل از آن وجود داشت و انتشار متن‌باز آن به این معنی است که دیگران می‌توانند به جای شروع از صفر، بر روی زیرساخت ارزیابی آن کار کنند.

با این حال، من نگرانی‌های جدی درباره آنچه FinBen واقعاً می‌تواند بگوید دارم. دوره ارزیابی معاملات کوتاه و منحصر به یک بازار خاص است؛ نسبت شارپ محاسبه شده طی چند ماه در سهام ایالات متحده، سیگنال پایداری نیست. امتیازهای صفر در تلخیص استخراجی به ما می‌گوید چیزی ایراد دارد، اما مقاله تشخیص نمی‌دهد چرا — آیا مشکل از فرمت پرومپت است، یا ناشی از توکنایز کردن، یا یک شکست واقعی در استدلال؟ این تمایز برای هر کسی که سعی در اصلاح آن دارد مهم است.

همچنین این بنچمارک تقریباً به طور کامل بر زبان انگلیسی و بازار ایالات متحده متمرکز است. این فقط یک هشدار کلی نیست؛ بلکه به این معنی است که نتایج، اطلاعات بسیار کمی درباره عملکرد در مورد اسناد مالی آلمانی یا چینی، یا در حوزه‌های قضایی با استانداردهای حسابداری متفاوت به شما می‌دهد. برای پروژه‌ای مانند Beancount.io که به کاربران جهانی خدمات می‌دهد، این یک شکاف قابل توجه است.

داستان مدل‌های تنظیم‌شده با دستورالعمل نیز مبهم‌تر از آن چیزی است که در ابتدا به نظر می‌رسد. تنظیم دقیق در تحلیل احساسات کمک می‌کند (FinMA 7B با امتیاز ۰.۸۸) اما «تنها بهبودهای جزئی برای وظایف پیچیده مانند پرسش و پاسخ فراهم می‌کند». مقاله این موضوع را به عنوان یک یافته گزارش می‌کند اما توضیح مکانیکی ارائه نمی‌دهد. آیا این ناشی از فراموشی فاجعه‌بار (catastrophic forgetting) در توانایی استدلال مدل پایه است؟ یا توزیع داده‌های تنظیم دقیق بیش از حد محدود است؟ سطح بنچمارک به تنهایی نمی‌تواند به این سوال پاسخ دهد.

چرا این موضوع برای هوش مصنوعی در مالی اهمیت دارد

نتایج FinBen خط مبنای شفاف‌تری نسبت به قبل در اختیار Bean Labs قرار می‌دهد. وظایفی که بیشترین ارتباط را با یک عامل دفترکل Beancount دارند — پرسش و پاسخ عددی روی گزارش‌های مالی ساختاریافته (FinQA: ۰.۶۳ تطابق دقیق)، استخراج اطلاعات از شرح تراکنش‌ها (NER: ۰.۸۳ F1) و تشخیص ناهنجاری یا طبقه‌بندی تقلب (وظایف مدیریت ریسک که واریانس گسترده‌ای نشان می‌دهند) — همگی در اینجا نمایش داده شده‌اند و هیچ‌کدام کاملاً حل نشده‌اند.

شکست در پیش‌بینی (۰.۵۴ در حرکت سهام) در واقع برای مورد استفاده محدودتر ما اطمینان‌بخش است: ما از مدل‌ها نمی‌خواهیم بازارها را پیش‌بینی کنند، بلکه از آن‌ها می‌خواهیم ورودی‌های ساختاریافته را طبقه‌بندی، استخراج و بازنویسی کنند. این وظایف بسته به پیچیدگی در محدوده ۰.۶۳ تا ۰.۸۳ قرار می‌گیرند که پایه‌ای قابل استفاده است — هرچند «قابل استفاده» به معنای «امن برای تولید بدون بازبینی انسانی» نیست.

شکاف بین استخراج ساختاریافته و استدلال باز نیز مستقیماً به مسئله ایمنی بازنویسی (write-back safety) مربوط می‌شود. اگر مدلی بتواند با اطمینان یک موجودیت را استخراج کند (F1 ۰.۸۳) اما در استدلال درباره پیامدهای عددی آن (FinQA ۰.۶۳) یا تولید خروجی ساختاریافته صحیح (استخراج روابط: ۰.۰۱) دچار مشکل شود، در این صورت ایمن‌ترین معماری این است که این مراحل را از هم جدا نگه داشته و اعتبارسنجی صریحی بین آن‌ها انجام دهد.

برای مطالعه بیشتر

  • FinMaster (arXiv:2505.13533) — به طور صریح جریان‌های کاری حسابداری سرتاسری (end-to-end) از جمله ثبت دفتر روزنامه و رفع مغایرت را ارزیابی می‌کند؛ این به وظیفه Beancount نزدیک‌تر از هر چیزی در FinBen است.
  • «جدول با LLM ملاقات می‌کند: آیا مدل‌های زبانی بزرگ می‌توانند داده‌های جدولی ساختاریافته را درک کنند؟» (arXiv:2305.13062، WSDM 2024) — دفترکل‌های Beancount اساساً جداول ساختاریافته هستند؛ این مقاله دقیقاً توانایی‌های درک ساختاری را که زیربنای هر عامل خوانش دفترکل است، ارزیابی می‌کند.
  • ReAct: هم‌افزایی استدلال و عمل در مدل‌های زبانی (arXiv:2210.03629) — چارچوب درهم‌تنیده استدلال و عمل (reasoning-and-action) چیزی است که اکثر عامل‌های بازنویسی از آن استفاده می‌کنند؛ درک حالت‌های شکست آن اکنون که FinBen نشان داده کف استدلال واقعاً کجاست، اهمیت بیشتری دارد.