BloombergGPT и границите на специализираните LLM в областта на финансите
BloombergGPT се появи през март 2023 г. и веднага се превърна в отправна точка за всеки разговор относно специфичните за домейна големи езикови модели (LLM) във финансите. Чета го сега не защото е актуален — не е — а защото историята на това, което се случи след пускането му, е поне толкова поучителна, колкото и написаното в самия доклад.
Докладът
Wu и др. от Bloomberg обучиха езиков модел с 50 милиарда параметри върху корпус от 569 мил иарда токена, разделен грубо наполовина: 363 милиарда токена от FinPile, патентован финансов набор от данни, събран от архивите на Bloomberg от 2007 г. насам, и 345 милиарда токена от обществени набори от данни с общо предназначение. FinPile обхваща новинарски статии, документи, съобщения за пресата, транскрипти от разговори за финансови резултати и уеб страници с финансово съдържание. Самият модел следва архитектура на каузален езиков модел само с декодер (в стил BLOOM, използващ позиционно кодиране ALiBi), обучен на 64 × 8 A100 40GB графични процесора в рамките на 139 200 стъпки.
Основното твърдение е, че предварителното обучение върху смесени домейни — а не просто фината настройка (fine-tuning) — създава модел, който „превъзхожда съществуващите модели във финансовите задачи със значителна преднина, без да жертва производителността в общите LLM бенчмаркове“. Това е основната хипотеза на стратегията за специфични за домейна LLM: че можете да имате и двете едновременно.
Ключови идеи
- Точност при ConvFinQA: 43,41% срещу GPT-NeoX 30,06%. Най-големите печалби спрямо базовата линия със сравним мащаб се появиха при задачи, изискващи многостъпкови разсъждения върху финансови таблици, вградени в разговор — точно онзи вид структурирано логическо мислене, с който се борят общите модели, обучени на по-малко финансови данни.
- Сентимент анализ при FiQA: 75,07% F1 срещу GPT-NeoX 50,59%. Почти 25 пункта по-висок резултат при анализа на финансови настроения. Печалбите при задачи за класификация с ясна финансова терминология бяха най-драматични.
- Вътрешните бенчмаркове показаха още по-категорична картина. В патентованата задача на Bloomberg за сентимент на новини за акции (Equity News Sentiment), BloombergGPT постигна 79,63% F1; GPT-NeoX постигна 14,17%. Тези вътрешни числа са непроверими, но те са и цялата цел на заниманието — Bloomberg изгради модела за задачи, които само те могат да дефинират.
- NER беше забележимото слабо място. В задачата за финансово разпознаване на именувани обекти (NER), BloombergGPT отбеляза 60,82% F1, малко зад 60,98% на GPT-NeoX — напомняне, че не всички NLP задачи се възползват еднакво от финансовото предварително обучение и че генеративните модели се затрудняват със структурираното извличане на обхвати (span extraction), независимо от домейна.
- Токенизаторът на GPT-2 не третираше числата по специален начин. Число като 5 234 може да бъде разделено на токени по непредвидими начини. Авторите отбелязаха това като проблем за численото мислене, но не го адресираха архитектурно — което е от огромно значение за всичко, включващо аритметика на счетоводни книги.
- Нестабилността на обучението беше реална. При стъпки 115 500, 129 900 и 137 100 градиентната норма скочи рязко и екипът трябваше да върне контролните точки (checkpoints) и да намали скоростта на обучение (learning rate). Приложението „Хроники на обучението“ в доклада е необичайно откровено по този въпрос. Изграждането на специфични за домейна LLM в голям мащаб е оперативно по-трудно, отколкото подсказва теорията.
Какво се потвърждава — и какво не
Основното откритие — че добавянето на специфични за домейна данни подобрява производителността на финансовите задачи спрямо общите модели с еднакъв размер — е добре подкрепено и не е изненадващо. Интересният въпрос е дали маржът оправдава разходите.
Когато GPT-4 беше пуснат, няколко изследователи (включително Итън Молик в широко цитирана нишка) посочиха, че GPT-4 превъзхожда BloombergGPT в почти всеки публичен финансов бенчмарк, с който беше сравняван — въпреки че GPT-4 няма достъп до патентованите данни на Bloomberg и не е получил специфично за финансите предварително обучение извън това, което се е появило в общия му корпус за обучение. Проучване на Yang и др. (arXiv:2305.05862) оцени ChatGPT и GPT-4 върху осем финансови NLP бенчмарка и установи, че GPT-4 е постоянно конкурентен или превъзхождащ фино настроените специфични за финансите модели. Съобщава се, че Bloomberg е похарчил около 10 милиона долара за цикъла на обучение. Урокът, който областта извлече от това: мащабът бие специализацията, когато границата се движи достатъчно бързо.
Това тълкуване обаче е твърде опростено. Вътрешните бенчмаркове на BloombergGPT — тези, включващи специфична за Bloomberg терминология и формати на документи, които GPT-4 никога не е виждал — остават вероятно най-силният аргумент на модела. Не можете да оцените патентованата производителност отвън. Сравнението с публични бенчмаркове е само частичен тест на реалната теза.
Това, което намирам за наистина недостатъчно изследвано в доклада, е проблемът с токенизацията. Финансите са област, в която точните числа са от значение: 5 234,78 не е приблизително 5 235. Токенизатор, който раздробява числови низове непредвидимо, е структурна пречка за всяка количествена задача и авторите го признават, без да го решават. Това не е малка бележка под линия — това е основна причина за аритметичните неуспехи, които преследват езиковите модели при финансови изчисления.