پرش به محتوای اصلی

BloombergGPT و محدودیت‌های مدل‌های زبانی بزرگ تخصصی در امور مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

BloombergGPT در مارس ۲۰۲۳ عرضه شد و بلافاصله به نقطه مرجعی برای هر بحثی درباره مدل‌های زبانی بزرگ (LLM) تخصصی در حوزه مالی تبدیل شد. من اکنون آن را می‌خوانم نه به این دلیل که جدید است — چون نیست — بلکه به این دلیل که داستان اتفاقاتی که پس از عرضه آن رخ داد، حداقل به اندازه مطالب خود مقاله آموزنده است.

مقاله

2026-05-05-bloomberggpt-large-language-model-finance

وو و همکاران از بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را بر روی مجموعه‌ای از ۵۶۹ میلیارد توکن آموزش دادند که تقریباً به دو نیم تقسیم شده بود: ۳۶۳ میلیارد توکن از FinPile (یک مجموعه داده مالی اختصاصی گردآوری شده از آرشیوهای بلومبرگ که به سال ۲۰۰۷ بازمی‌گردد) و ۳۴۵ میلیارد توکن از مجموعه‌داده‌های عمومی و چندمنظوره. FinPile شامل مقالات خبری، پرونده‌های ثبتی، بیانیه‌های مطبوعاتی، متن جلسات گزارش سود و صفحات مالی استخراج شده از وب است. خود مدل از معماری مدل زبانی علّی فقط دکودر (سبک BLOOM، با استفاده از رمزگذاری‌های مکانی ALiBi) پیروی می‌کند و روی ۶۴ × ۸ پردازنده گرافیکی A100 40GB در طول ۱۳۹,۲۰۰ مرحله آموزش دیده است.

ادعای مرکزی این است که پیش‌آموزش در دامنه‌های ترکیبی — و نه فقط تنظیم دقیق (Fine-tuning) — مدلی تولید می‌کند که "در وظایف مالی با اختلاف قابل توجهی از مدل‌های موجود بهتر عمل می‌کند، بدون اینکه عملکرد خود را در بنچ‌مارک‌های عمومی LLM از دست بدهد." این فرضیه اصلی استراتژی LLM اختصاصی است: اینکه می‌توانید هم تخصصی عمل کنید و هم توانایی عمومی را حفظ کنید.

ایده‌های کلیدی

  • دقت ConvFinQA: ۴۳.۴۱٪ در مقابل ۳۰.۰۶٪ GPT-NeoX. بیشترین برتری نسبت به مدل‌های پایه با مقیاس مشابه، در وظایفی ظاهر شد که نیاز به استدلال چندمرحله‌ای روی جداول مالی گنجانده شده در گفتگو داشتند — دقیقاً همان نوع استدلال ساختاریافته‌ای که مدل‌های عمومی آموزش دیده با داده‌های مالی کمتر، در آن مشکل دارند.
  • احساسات FiQA: امتیاز ۷۵.۰۷٪ F1 در مقابل ۵۰.۵۹٪ GPT-NeoX. تقریباً ۲۵ واحد بالاتر در تحلیل احساسات مالی. بیشترین جهش در وظایف طبقه‌بندی با واژگان مالی واضح مشاهده شد.
  • بنچ‌مارک‌های داخلی داستانی حتی قوی‌تر را روایت کردند. در وظیفه اختصاصی Equity News Sentiment بلومبرگ، BloombergGPT به امتیاز ۷۹.۶۳٪ F1 رسید؛ در حالی که GPT-NeoX امتیاز ۱۴.۱۷٪ را کسب کرد. این اعداد داخلی غیرقابل تأیید هستند، اما کل هدف همین است — بلومبرگ مدل را برای وظایفی ساخته که فقط خودش می‌تواند تعریف کند.
  • تخیص موجودیت‌های نام‌دار (NER) یک نقطه ضعف مشهود بود. در وظیفه NER مالی، BloombergGPT امتیاز ۶۰.۸۲٪ F1 را کسب کرد که کمی از امتیاز ۶۰.۹۸٪ GPT-NeoX عقب‌تر بود — یادآوری‌ای بر اینکه همه وظایف پردازش زبان طبیعی (NLP) به یک اندازه از پیش‌آموزش مالی بهره نمی‌برند و مدل‌های مولد صرف‌نظر از دامنه، در استخراج دقیق داده‌های ساختاریافته مشکل دارند.
  • توکن‌ساز GPT-2 با اعداد رفتار خاصی نداشت. عددی مانند ۵,۲۳۴ می‌توانست به روش‌های غیرقابل پیش‌بینی بین توکن‌ها تقسیم شود. نویسندگان این موضوع را به عنوان یک نگرانی برای استدلال عددی مطرح کردند اما از نظر معماری به آن نپرداختند — موضوعی که برای هر چیزی که شامل محاسبات دفتر کل باشد، اهمیت فوق‌العاده‌ای دارد.
  • ناپایداری آموزش واقعی بود. در مراحل ۱۱۵,۵۰۰، ۱۲۹,۹۰۰ و ۱۳۷,۱۰۰، نرم گرادیان به شدت جهش کرد و تیم مجبور شد به نقاط بازرسی (checkpoints) قبلی بازگردد و نرخ یادگیری را کاهش دهد. ضمیمه "تاریخچه آموزش" مقاله به طور غیرمعمولی در این باره صادقانه نوشته شده است. ساخت مدل‌های زبانی تخصصی در مقیاس بزرگ از نظر عملیاتی دشوارتر از آن چیزی است که تئوری نشان می‌دهد.

چه چیزی پابرجا مانده و چه چیزی نه

یافته اصلی — که افزودن داده‌های اختصاصی دامنه، عملکرد در وظایف مالی را نسبت به مدل‌های عمومی با اندازه مشابه بهبود می‌بخشد — به خوبی پشتیبانی شده و جای تعجب ندارد. سوال جالب اینجاست که آیا این اختلاف عملکرد، هزینه انجام آن را توجیه می‌کند؟

زمانی که GPT-4 منتشر شد، چندین محقق (از جمله ایتان مولیک در یک رشته‌توییت پرارجاع) اشاره کردند که GPT-4 تقریباً در هر بنچ‌مارک مالی عمومی که با آن مقایسه شده بود، از BloombergGPT بهتر عمل کرده است — علیرغم اینکه GPT-4 به داده‌های اختصاصی بلومبرگ دسترسی نداشت و هیچ پیش‌آموزش خاص مالی فراتر از آنچه در مجموعه آموزش عمومی‌اش بود، دریافت نکرده بود. مطالعه‌ای توسط یانگ و همکاران (arXiv:2305.05862) چت‌جی‌پی‌تی و GPT-4 را در هشت بنچ‌مارک NLP مالی ارزیابی کرد و دریافت که GPT-4 به طور مداوم با مدل‌های تخصصی مالیِ تنظیم‌شده، رقابت کرده یا از آن‌ها برتر است. گزارش شده است که بلومبرگ حدود ۱۰ میلیون دلار برای آموزش این مدل هزینه کرده است. درسی که این حوزه از این اتفاق گرفت: وقتی مرزهای فناوری به سرعت جابجا می‌شوند، مقیاس بر تخصص غلبه می‌کند.

با این حال، این تفسیر بیش از حد ساده است. بنچ‌مارک‌های داخلی BloombergGPT — آن‌هایی که شامل اصطلاحات خاص بلومبرگ و فرمت‌های سندی هستند که GPT-4 هرگز ندیده است — همچنان به عنوان قوی‌ترین استدلال برای این مدل باقی می‌مانند. شما نمی‌توانید عملکرد اختصاصی را از بیرون ارزیابی کنید. مقایسه بنچ‌مارک‌های عمومی تنها بخشی از آزمون فرضیه واقعی است.

چیزی که من در این مقاله واقعاً مورد غفلت می‌بینم، مشکل توکن‌سازی است. امور مالی دامنه‌ای است که در آن اعداد دقیق اهمیت دارند: ۵,۲۳۴.۷۸ تقریباً ۵,۲۳۵ نیست. توکن‌سازی که رشته‌های عددی را به طور غیرقابل پیش‌بینی خرد می‌کند، یک نقطه ضعف ساختاری برای هر وظیفه محاسباتی است و نویسندگان بدون حل آن، صرفاً به آن اذعان کرده‌اند. این یک پاورقی جزئی نیست — بلکه علت ریشه‌ای شکست‌های محاسباتی است که مدل‌های زبانی را در محاسبات مالی گرفتار می‌کند.

چرا این موضوع برای هوش مصنوعی در حسابداری مهم است

برای برنامه‌های Bean Labs، داستان BloombergGPT همزمان به دو جهت اشاره دارد. اول، پیش‌آموزش اختصاصی دامنه می‌تواند در وظایف طبقه‌بندی محدود — مانند تحلیل احساسات، برچسب‌گذاری عناوین، NER — کمک شایانی کند، اما این‌ها مسائل دشوار برای عامل‌های حسابداری خودکار نیستند. مسائل دشوار عبارتند از استدلال چندمرحله‌ای روی ورودی‌های دفتر کل، بازنویسی ایمن داده‌ها و شناسایی خطاها در زنجیره‌های محاسباتی. مدل‌های کلاس GPT-4 در حال حاضر وظایف ساده طبقه‌بندی را به اندازه کافی خوب انجام می‌دهند.

دوم، موضوع توکن‌سازی مستقیماً با عامل‌های Beancount مرتبط است. هر ورودی دفتر کل شامل مبالغ پولی، شماره حساب‌ها و تاریخ‌ها است. اگر توکن‌ساز مدل پایه، عبارتی مثل "1,234.56 USD" را به شکل غیرقابل پیش‌بینی تکه‌تکه کند، هر عاملی که قصد تطبیق چندمرحله‌ای (reconciliation) را داشته باشد، در واقع بر علیه ساختار خودش کار می‌کند. این نشان می‌دهد که رویکردهای استفاده از ابزار (tool-use) — جایی که محاسبات به جای استدلال از طریق زبان طبیعی به یک مفسر پایتون واگذار می‌شود (مانند PAL که در LOG-009 بررسی کردم) — بسیار قدرتمندتر از تکیه بر ساختار داخلی مدل هستند، فارغ از اینکه مدل روی چه مقدار متن مالی آموزش دیده باشد.

درس عمیق‌تر: پیش‌آموزش اختصاصی زمانی بیشترین ارزش را دارد که وظایف پایین‌دستی نیاز به تشخیص واژگان تخصصی و ساختار اسناد داشته باشند — نه زمانی که نیاز به دقت عددی دارند. برای Beancount، این بدان معناست که سرمایه‌گذاری روی تنظیم دقیق (fine-tuning) احتمالاً باید به جای مدل‌سازی خام زبان مالی، روی "پیروی از دستورات" و "استفاده از ابزارها" متمرکز شود.

چه چیزی را در ادامه بخوانیم

  • FinGPT: مدل‌های زبانی بزرگ مالی متن‌باز (یانگ و همکاران، ۲۰۲۳، arXiv:2306.06031) — پاسخ متن‌باز به BloombergGPT؛ استفاده از تنظیم دقیق LoRA روی مدل‌های عمومی با هزینه حدود ۳۰۰ دلار به جای ۱۰ میلیون دلار؛ یک آزمون مستقیم برای اقتصادِ "تنظیم دقیق در مقابل پیش‌آموزش".
  • آیا ChatGPT و GPT-4 حلال مشکلات عمومی در تحلیل متن‌های مالی هستند؟ (یانگ و همکاران، ۲۰۲۳، arXiv:2305.05862) — مقایسه‌ای سیستماتیک که نشان داد GPT-4 در بنچ‌مارک‌های عمومی با مدل‌های تخصصی مالی برابری کرده یا از آن‌ها پیشی می‌گیرد؛ ضروری برای کالیبره کردن اینکه پیش‌آموزش دامنه واقعاً چه سودی دارد.
  • قوانین مقیاس‌بندی برای مدل‌های زبانی عصبی (کاپلان و همکاران، ۲۰۲۰، arXiv:2001.08361) — مقاله مربوط به مقیاس‌بندی بهینه محاسباتی که چارچوبی برای درک چرایی برتری احتمالی GPT-4 بر BloombergGPT ارائه می‌دهد؛ دنباله Chinchilla نیز به همان اندازه مرتبط است.