FinBen: ارزیابی مقایسهای مدلهای زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری
FinBen در NeurIPS 2024 به عنوان جامعترین ارزیابی عمومی مدلهای زبانی بزرگ (LLM) در وظایف مالی تا به امروز معرفی شد. من مشتاق مطالعه دقیق آن بودم، زیرا پیش از طراحی هرگونه عامل خودمختار روی دفترکلهای Beancount، به تصویری واقعبینانه از جایگاه مدلهای پیشرو در وظایف استدلال مالی که چنین عاملی باید انجام دهد، نیاز داشتم.
مقاله
کیانکیان شیه (Qianqian Xie) و ۳۳ نویسنده همکار، FinBen را معرفی میکنند؛ یک بنچمارک متنباز که ۳۶ مجموعه داده را در ۲۴ وظیفه مالی پوشش میدهد و در هفت بعد سازماندهی شده است: استخراج اطلاعات، تحلیل متنی، پرسش و پاسخ، تولید متن، مدیریت ریسک، پیشبینی و تصمیمگیری. آنها ۱۵ مدل زبانی بزرگ شاخص — از جمله GPT-4، ChatGPT، Gemini و چندین مدل متنباز تنظیمشده با دستورالعمل (instruction-tuned) — را ارزیابی کرده و سه مجموعه داده جدید برای تلخیص، پرسش و پاسخ و ارزیابی معاملات سهام معرفی کردهاند.
انگیزه اصلی این است که بنچمارکهای مالی قبلی مانند FLUE و FLARE هر کدام تنها بخشی از پردازش زبان طبیعی (NLP) مالی را پوشش میدادند، اما هیچکدام به کل چرخه نزدیک نبودند. FinBen اولین تلاش برای پوشش کل این زنجیره در یک جا است و در بخش مجموعهدادهها و بنچمارکهای NeurIPS 2024 پذیرفته شده است که به آن اعتبار متدولوژیک معقولی میبخشد.
ایدههای کلیدی
- در بازشناسی موجودیتهای نامگذاری شده (NER)، مدل GPT-4 امتیاز ۰.۸۳ را در مجموعه داده FINER-ORD کسب کرده است — که قوی است، اما این سادهترین دسته در این بنچمارک محسوب میشود.
- در FinQA (استدلال عددی روی گزارشهای مالی)، GPT-4 به تطابق دقیق (Exact Match) ۰.۶۳ میرسد؛ در نسخه محاورهای ConvFinQA، امتیاز ۰.۷۶ را کسب میکند. اینها نتایج قابل احترامی هستند اما هنوز تا حل کامل فاصله دارند.
- مدل FinMA 7B که روی دامنه مالی تنظیم دقیق شده است، در تحلیل احساسات FPB به امتیاز ۰.۸۸ (F1) دست یافته و در این وظیفه خاص از GPT-4 پیشی گرفته است؛ این موضوع تایید میکند که تنظیم دقیق (fine-tuning) هنوز در طبقهبندیهای مشخص، مزیت ایجاد میکند.
- پیشبینی حرکت سهام واضحترین مورد شکست است: حتی GPT-4 دقت تقریبی ۰.۵۴ را ثبت کرده است که به سختی بالاتر از تصادف است. نویسندگان این موضوع را «یک نقص قابل توجه در توانایی مدلهای زبانی برای مقابله با پیشبینی» مینامند.
- GPT-4 در وظیفه معاملاتی به نسبت شارپ ۱.۵۱ در مقابل ۱.۰۳ برای Gemini و بازده تجمعی ۲۸.۱۹٪ در مقابل بازده ۴.۰۰-٪ استراتژی «بخر و نگه دار» در دوره ارزیابی دست یافت — اما این یک بکتست کوتاه با تمام محدودیتهای معمول است.
- تمامی مدلها در تلخیص استخراجی امتیاز صفر گرفتند و GPT-4 در استخراج روابط امتیاز ۰.۰۱ (F1) را کسب کرد. توانمندیها در خارج از محدوده امن طبقهبندی متن و تولید باز، به شدت کاهش مییابند.
چه چیزی معتبر است — و چه چیزی نیست
این بنچمارک به عنوان یک ابزار بررسی واقعاً مفید است. طیف وظایف گستردهتر از هر چیزی است که قبل از آن وجود داشت و انتشار متنباز آن به این معنی است که دیگران میتوانند به جای شروع از صفر، بر روی زیرساخت ارزیابی آن کار کنند.
با این حال، من نگرانیهای جدی درباره آنچه FinBen واقعاً میتواند بگوید دارم. دوره ارزیابی معاملات کوتاه و منحصر به یک بازار خاص است؛ نسبت شارپ محاسبه شده طی چند ماه در سهام ایالات متحده، سیگنال پایداری نیست. امتیازهای صفر در تلخیص استخراجی به ما میگوید چیزی ایراد دارد، اما مقاله تشخیص نمیدهد چرا — آیا مشکل از فرمت پرومپت است، یا ناشی از توکنایز کردن، یا یک شکست واقعی در استدلال؟ این تمایز برای هر کسی که سعی در اصلاح آن دارد مهم است.
همچنین این بنچمارک تقریباً به طور کامل بر زبان انگلیسی و بازار ایالات متحده متمرکز است. این فقط یک هشدار کلی نیست؛ بلکه به این معنی است که نتایج، اطلاعات بسیار کمی درباره عملکرد در مورد اسناد مالی آلمانی یا چینی، یا در حوزههای قضایی با استانداردهای حسابداری متفاوت به شما میدهد. برای پروژهای مانند Beancount.io که به کاربران جهانی خدمات میدهد، این یک شکاف قابل توجه است.
داستان مدلهای تنظیمشده با دستورالعمل نیز مبهمتر از آن چیزی است که در ابتدا به نظر میرسد. تنظیم دقیق در تحلیل احساسات کمک میکند (FinMA 7B با امتیاز ۰.۸۸) اما «تنها بهبودهای جزئی برای وظایف پیچیده مانند پرسش و پاسخ فراهم میکند». مقاله این موضوع را به عنوان یک یافته گزارش میکند اما توضیح مکانیکی ارائه نمیدهد. آیا این ناشی از فراموشی فاجعهبار (catastrophic forgetting) در توانایی استدلال مدل پایه است؟ یا توزیع دادههای تنظیم دقیق بیش از حد محدود است؟ سطح بنچمارک به تنهایی نمیتواند به این سوال پاسخ دهد.
چرا این موضوع برای هوش مصنوعی در مالی اهمیت دارد
نتایج FinBen خط مبنای شفافتری نسبت به قبل در اختیار Bean Labs قرار میدهد. وظایفی که بیشترین ارتباط را با یک عامل دفترکل Beancount دارند — پرسش و پاسخ عددی روی گزارشهای مالی ساختاریافته (FinQA: ۰.۶۳ تطابق دقیق)، استخراج اطلاعات از شرح تراکنشها (NER: ۰.۸۳ F1) و تشخیص ناهنجاری یا طبقهبندی تقلب (وظایف مدیریت ریسک که واریانس گستردهای نشان میدهند) — همگی در اینجا نمایش داده شدهاند و هیچکدام کاملاً حل نشدهاند.
شکست در پیشبینی (۰.۵۴ در حرکت سهام) در واقع برای مورد استفاده محدودتر ما اطمینانبخش است: ما از مدلها نمیخواهیم بازارها را پیشبینی کنند، بلکه از آنها میخواهیم ورودیهای ساختاریافته را طبقهبندی، استخراج و بازنویسی کنند. این وظایف بسته به پیچیدگی در محدوده ۰.۶۳ تا ۰.۸۳ قرار میگیرند که پایهای قابل استفاده است — هرچند «قابل استفاده» به معنای «امن برای تولید بدون بازبینی انسانی» نیست.
شکاف بین استخراج ساختاریافته و استدلال باز نیز مستقیماً به مسئله ایمنی بازنویسی (write-back safety) مربوط میشود. اگر مدلی بتواند با اطمینان یک موجودیت را استخراج کند (F1 ۰.۸۳) اما در استدلال درباره پیامدهای عددی آن (FinQA ۰.۶۳) یا تولید خروجی ساختاریافته صحیح (استخراج روابط: ۰.۰۱) دچار مشکل شود، در این صورت ایمنترین معماری این است که این مراحل را از هم جدا نگه داشته و اعتبارسنجی صریحی بین آنها انجام دهد.
برای مطالع ه بیشتر
- FinMaster (arXiv:2505.13533) — به طور صریح جریانهای کاری حسابداری سرتاسری (end-to-end) از جمله ثبت دفتر روزنامه و رفع مغایرت را ارزیابی میکند؛ این به وظیفه Beancount نزدیکتر از هر چیزی در FinBen است.
- «جدول با LLM ملاقات میکند: آیا مدلهای زبانی بزرگ میتوانند دادههای جدولی ساختاریافته را درک کنند؟» (arXiv:2305.13062، WSDM 2024) — دفترکلهای Beancount اساساً جداول ساختاریافته هستند؛ این مقاله دقیقاً تواناییهای درک ساختاری را که زیربنای هر عامل خوانش دفترکل است، ارزیابی میکند.
- ReAct: همافزایی استدلال و عمل در مدلهای زبانی (arXiv:2210.03629) — چارچوب درهمتنیده استدلال و عمل (reasoning-and-action) چیزی است که اکثر عاملهای بازنویسی از آن استفاده میکنند؛ درک حالتهای شکست آن اکنون که FinBen نشان داده کف استدلال واقعاً کجاست، اهمیت بیشتری دارد.
