BloombergGPT و محدودیتهای مدلهای زبانی بزرگ تخصصی در امور مالی
BloombergGPT در مارس ۲۰۲۳ عرضه شد و بلافاصله به نقطه مرجعی برای هر بحثی درباره مدلهای زبانی بزرگ (LLM) تخصصی در حوزه مالی تبدیل شد. من اکنون آن را میخوانم نه به این دلیل که جدید است — چون نیست — بلکه به این دلیل که داستان اتفاقاتی که پس از عرضه آن رخ داد، حداقل به اندازه مطالب خود مقاله آموزنده است.
مقاله
وو و همکاران از بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را بر روی مجموعهای از ۵۶۹ میلیارد توکن آموزش دادند که تقریباً به دو نیم تقسیم شده بود: ۳۶۳ میلی ارد توکن از FinPile (یک مجموعه داده مالی اختصاصی گردآوری شده از آرشیوهای بلومبرگ که به سال ۲۰۰۷ بازمیگردد) و ۳۴۵ میلیارد توکن از مجموعهدادههای عمومی و چندمنظوره. FinPile شامل مقالات خبری، پروندههای ثبتی، بیانیههای مطبوعاتی، متن جلسات گزارش سود و صفحات مالی استخراج شده از وب است. خود مدل از معماری مدل زبانی علّی فقط دکودر (سبک BLOOM، با استفاده از رمزگذاریهای مکانی ALiBi) پیروی میکند و روی ۶۴ × ۸ پردازنده گرافیکی A100 40GB در طول ۱۳۹,۲۰۰ مرحله آموزش دیده است.
ادعای مرکزی این است که پیشآموزش در دامنههای ترکیبی — و نه فقط تنظیم دقیق (Fine-tuning) — مدلی تولید میکند که "در وظایف مالی با اختلاف قابل توجهی از مدلهای موجود بهتر عمل میکند، بدون اینکه عملکرد خود را در بنچمارکهای عمومی LLM از دست بدهد." این فرضیه اصلی استراتژی LLM اختصاصی است: اینکه میتوانید هم تخصصی عمل کنید و هم توانایی عمومی را حفظ کنید.
ایدههای کلیدی
- دقت ConvFinQA: ۴۳.۴۱٪ در مقابل ۳۰.۰۶٪ GPT-NeoX. بیشترین برتری نسبت به مدلهای پایه با مقیاس مشابه، در وظایفی ظاهر شد که نیاز به ا ستدلال چندمرحلهای روی جداول مالی گنجانده شده در گفتگو داشتند — دقیقاً همان نوع استدلال ساختاریافتهای که مدلهای عمومی آموزش دیده با دادههای مالی کمتر، در آن مشکل دارند.
- احساسات FiQA: امتیاز ۷۵.۰۷٪ F1 در مقابل ۵۰.۵۹٪ GPT-NeoX. تقریباً ۲۵ واحد بالاتر در تحلیل احساسات مالی. بیشترین جهش در وظایف طبقهبندی با واژگان مالی واضح مشاهده شد.
- بنچمارکهای داخلی داستانی حتی قویتر را روایت کردند. در وظیفه اختصاصی Equity News Sentiment بلومبرگ، BloombergGPT به امتیاز ۷۹.۶۳٪ F1 رسید؛ در حالی که GPT-NeoX امتیاز ۱۴.۱۷٪ را کسب کرد. این اعداد داخلی غیرقابل تأیید هستند، اما کل هدف همین است — بلومبرگ مدل را برای وظایفی ساخته که فقط خودش میتواند تعریف کند.
- تخیص موجودیتهای نامدار (NER) یک نقطه ضعف مشهود بود. در وظیفه NER مالی، BloombergGPT امتیاز ۶۰.۸۲٪ F1 را کسب کرد که کمی از امتیاز ۶۰.۹۸٪ GPT-NeoX عقبتر بود — یادآوریای بر اینکه همه وظایف پردازش زبان طبیعی (NLP) به یک اندازه از پیشآموزش مالی بهره نمیبرند و مدلهای مولد صرفنظر از دامنه، در استخراج دقیق دادههای ساختاریافته مشکل دارند.
- توکنساز GPT-2 با اعداد رفتار خاصی نداشت. عددی مانند ۵,۲۳۴ میتوانست به روشهای غیرقابل پیشبینی بین توکنها تقسیم شود. نویسندگان این موضوع را به عنوان یک نگرانی برای استدلال عددی مطرح کردند اما از نظر معماری به آن نپرداختند — موضوعی که برای هر چیزی که شامل محاسبات دفتر کل باشد، اهمیت فوقالعادهای دارد.
- ناپایداری آموزش واقعی بود. در مراحل ۱۱۵,۵۰۰، ۱۲۹,۹۰۰ و ۱۳۷,۱۰۰، نرم گرادیان به شدت جهش کرد و تیم مجبور شد به نقاط بازرسی (checkpoints) قبلی بازگردد و نرخ یادگیری را کاهش دهد. ضمیمه "تاریخچه آموزش" مقاله به طور غیرمعمولی در این باره صادقانه نوشته شده است. ساخت مدلهای زبانی تخصصی در مقیاس بزرگ از نظر عملیاتی دشوارتر از آن چیزی است که تئوری نشان میدهد.
چه چیزی پابرجا مانده و چه چیزی نه
یافته اصلی — که افزودن دادههای اختصاصی دامنه، عملکرد در وظایف مالی را نسبت به مدلهای عمومی با اندازه مشابه بهبود میبخشد — به خوبی پشتیبانی شده و جای تعجب ندارد. سوال جالب اینجاست که آیا این اختلاف عملکرد، هزینه انجام آن را توجیه میکند؟
زمانی که GPT-4 منتشر شد، چندین محقق (از جمله ایتان مولیک در یک رشتهتوییت پرارجاع) اشاره کردند که GPT-4 تقریباً در هر بنچمارک مالی عمومی که با آن مقایسه شده بود، از BloombergGPT بهتر عمل کرده است — علیرغم اینکه GPT-4 به دادههای اختصاصی بلومبرگ دسترسی نداشت و هیچ پیشآموزش خاص مالی فراتر از آنچه در مجموعه آموزش عمومیاش بود، دریافت نکرده بود. مطالعهای توسط یانگ و همکاران (arXiv:2305.05862) چتجیپیتی و GPT-4 را در هشت بنچمارک NLP مالی ارزیابی کرد و دریافت که GPT-4 به طور مداوم با مدلهای تخصصی مالیِ تنظیمشده، رقابت کرده یا از آنها برتر است. گزارش شده است که بلومبرگ حدود ۱۰ میلیون دلار برای آموزش این مدل هزینه کرده است. درسی که این حوزه از این اتفاق گرفت: وقتی مرزهای فناوری به سرعت جابجا میشوند، مقیاس بر تخصص غلبه میکند.
با این حال، این تفسیر بیش از حد ساده است. بنچمارکهای داخلی BloombergGPT — آنهایی که شامل اصطلاحات خاص بلومبرگ و فرمتهای سندی هستند که GPT-4 هرگز ندیده است — همچنان به عنوان قویترین استدلال برای این مدل باقی میمانند. شما نمیتوانید عملکرد اختصاصی را از بیرون ارزیابی کنید. مقایسه بنچمارکهای عمومی تنها بخشی از آزمون فرضیه واقعی است.
چیزی که من در این مقاله واقعاً مورد غفلت میبینم، مشکل توکنسازی است. امور مالی دامنهای است که در آن اعداد دقیق اهمیت دارند: ۵,۲۳۴.۷۸ تقریباً ۵,۲۳۵ نیست. توکنسازی که رشتههای عددی را به طور غیرقابل پیشبینی خرد میکند، یک نقطه ضعف ساختاری برای هر وظیفه محاسباتی است و نویسندگان بدون حل آن، صرفاً به آن اذعان کردهاند. این یک پاورقی جزئی نیست — بلکه علت ریشهای شکستهای محاسباتی است که مدلهای زبانی را در محاسبات مالی گرفتار میکند.
چرا این موضوع برای هوش مصنوعی در حسابداری مهم است
برای برنامههای Bean Labs، داستان BloombergGPT همزمان به دو جهت اشاره دارد. اول، پیشآموزش اختصاصی دامنه میتواند در وظایف طبقهبندی محدود — مانند تحلیل احساسات، برچسبگذاری عناوین، NER — کمک شایانی کند، اما اینها مسائل دشوار برای عاملهای حسابداری خودکار نیستند. مسائل دشوار عبارتند از استدلال چندمرحلهای روی ورودیهای دفتر کل، بازنویسی ایمن دادهها و شناسایی خطاها در زنجیرههای محاسباتی. مدلهای کلاس GPT-4 در حال حاضر وظایف ساده طبقهبندی را به اندازه کافی خوب انجام میدهند.
دوم، موضوع توکنسازی مستقیماً با عاملهای Beancount مرتبط است. هر ورودی دفتر کل شامل مبالغ پولی، شماره حسابها و تاریخها است. اگر توکنساز مدل پایه، عبارتی مثل "1,234.56 USD" را به شکل غیرقابل پیشبینی تکهتکه کند، هر عاملی که قصد تطبیق چندمرحلهای (reconciliation) را داشته باشد، در واقع بر علیه ساختار خودش کار میکند. این نشان میدهد که رویکردهای استفاده از ابزار (tool-use) — جایی که محاسبات به جای استدلال از طریق زبان طبیعی به یک مفسر پایتون واگذار میشود (مانند PAL که در LOG-009 بررسی کردم) — بسیار قدرتمندتر از تکیه بر ساختار داخلی مدل هستند، فارغ از اینکه مدل روی چه مقدار متن مالی آموزش دیده باشد.
درس عمیقتر: پیشآموزش اختصاصی زمانی بیشترین ارزش را دارد که وظایف پاییندستی نیاز به تشخیص واژگان تخصصی و ساختار اسناد داشته باشند — نه زمانی که نیاز به دقت عددی دارند. برای Beancount، این بدان معناست که سرمایهگذاری روی تنظیم دقیق (fine-tuning) احتمالاً باید به جای مدلسازی خام زبان مالی، روی "پیروی از دستورات" و "استفاده از ابزارها" متمرکز شود.
چه چیزی را در ادامه بخوانیم
- FinGPT: مدلهای زبانی بزرگ مالی متنباز (یانگ و همکاران، ۲۰۲۳، arXiv:2306.06031) — پاسخ متنباز به BloombergGPT؛ استفاده از تنظیم دقیق LoRA روی مدلهای عمومی با هزینه حدود ۳۰۰ دلار به جای ۱۰ میلیون دلار؛ یک آزمون مستقیم برای اقتصادِ "تنظیم دقیق در مقابل پیشآموزش".
- آیا ChatGPT و GPT-4 حلال مشکلات عمومی در تحلیل متنهای مالی هستند؟ (یانگ و همکاران، ۲۰۲۳، arXiv:2305.05862) — مقایسهای سیستماتیک که نشان داد GPT-4 در بنچمارکهای عمومی با مدلهای تخصصی مالی برابری کرده یا از آنها پیشی میگیرد؛ ضروری برای کالیبره کردن اینکه پیشآموزش دامنه واقعاً چه سودی دارد.
- قوانین مقیاسبندی برای مدلهای زبانی عصبی (کاپلان و همکاران، ۲۰۲۰، arXiv:2001.08361) — مقاله مربوط به مقیاسبندی بهینه محاسباتی که چارچوبی برای درک چرایی برتری احتمالی GPT-4 بر BloombergGPT ارائه میدهد؛ دنباله Chinchilla نیز به همان اندازه مرتبط است.