Преминете към основното съдържание

BloombergGPT и границите на специализираните LLM в областта на финансите

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

BloombergGPT се появи през март 2023 г. и веднага се превърна в отправна точка за всеки разговор относно специфичните за домейна големи езикови модели (LLM) във финансите. Чета го сега не защото е актуален — не е — а защото историята на това, което се случи след пускането му, е поне толкова поучителна, колкото и написаното в самия доклад.

Докладът

2026-05-05-bloomberggpt-large-language-model-finance

Wu и др. от Bloomberg обучиха езиков модел с 50 милиарда параметри върху корпус от 569 милиарда токена, разделен грубо наполовина: 363 милиарда токена от FinPile, патентован финансов набор от данни, събран от архивите на Bloomberg от 2007 г. насам, и 345 милиарда токена от обществени набори от данни с общо предназначение. FinPile обхваща новинарски статии, документи, съобщения за пресата, транскрипти от разговори за финансови резултати и уеб страници с финансово съдържание. Самият модел следва архитектура на каузален езиков модел само с декодер (в стил BLOOM, използващ позиционно кодиране ALiBi), обучен на 64 × 8 A100 40GB графични процесора в рамките на 139 200 стъпки.

Основното твърдение е, че предварителното обучение върху смесени домейни — а не просто фината настройка (fine-tuning) — създава модел, който „превъзхожда съществуващите модели във финансовите задачи със значителна преднина, без да жертва производителността в общите LLM бенчмаркове“. Това е основната хипотеза на стратегията за специфични за домейна LLM: че можете да имате и двете едновременно.

Ключови идеи

  • Точност при ConvFinQA: 43,41% срещу GPT-NeoX 30,06%. Най-големите печалби спрямо базовата линия със сравним мащаб се появиха при задачи, изискващи многостъпкови разсъждения върху финансови таблици, вградени в разговор — точно онзи вид структурирано логическо мислене, с който се борят общите модели, обучени на по-малко финансови данни.
  • Сентимент анализ при FiQA: 75,07% F1 срещу GPT-NeoX 50,59%. Почти 25 пункта по-висок резултат при анализа на финансови настроения. Печалбите при задачи за класификация с ясна финансова терминология бяха най-драматични.
  • Вътрешните бенчмаркове показаха още по-категорична картина. В патентованата задача на Bloomberg за сентимент на новини за акции (Equity News Sentiment), BloombergGPT постигна 79,63% F1; GPT-NeoX постигна 14,17%. Тези вътрешни числа са непроверими, но те са и цялата цел на заниманието — Bloomberg изгради модела за задачи, които само те могат да дефинират.
  • NER беше забележимото слабо място. В задачата за финансово разпознаване на именувани обекти (NER), BloombergGPT отбеляза 60,82% F1, малко зад 60,98% на GPT-NeoX — напомняне, че не всички NLP задачи се възползват еднакво от финансовото предварително обучение и че генеративните модели се затрудняват със структурираното извличане на обхвати (span extraction), независимо от домейна.
  • Токенизаторът на GPT-2 не третираше числата по специален начин. Число като 5 234 може да бъде разделено на токени по непредвидими начини. Авторите отбелязаха това като проблем за численото мислене, но не го адресираха архитектурно — което е от огромно значение за всичко, включващо аритметика на счетоводни книги.
  • Нестабилността на обучението беше реална. При стъпки 115 500, 129 900 и 137 100 градиентната норма скочи рязко и екипът трябваше да върне контролните точки (checkpoints) и да намали скоростта на обучение (learning rate). Приложението „Хроники на обучението“ в доклада е необичайно откровено по този въпрос. Изграждането на специфични за домейна LLM в голям мащаб е оперативно по-трудно, отколкото подсказва теорията.

Какво се потвърждава — и какво не

Основното откритие — че добавянето на специфични за домейна данни подобрява производителността на финансовите задачи спрямо общите модели с еднакъв размер — е добре подкрепено и не е изненадващо. Интересният въпрос е дали маржът оправдава разходите.

Когато GPT-4 беше пуснат, няколко изследователи (включително Итън Молик в широко цитирана нишка) посочиха, че GPT-4 превъзхожда BloombergGPT в почти всеки публичен финансов бенчмарк, с който беше сравняван — въпреки че GPT-4 няма достъп до патентованите данни на Bloomberg и не е получил специфично за финансите предварително обучение извън това, което се е появило в общия му корпус за обучение. Проучване на Yang и др. (arXiv:2305.05862) оцени ChatGPT и GPT-4 върху осем финансови NLP бенчмарка и установи, че GPT-4 е постоянно конкурентен или превъзхождащ фино настроените специфични за финансите модели. Съобщава се, че Bloomberg е похарчил около 10 милиона долара за цикъла на обучение. Урокът, който областта извлече от това: мащабът бие специализацията, когато границата се движи достатъчно бързо.

Това тълкуване обаче е твърде опростено. Вътрешните бенчмаркове на BloombergGPT — тези, включващи специфична за Bloomberg терминология и формати на документи, които GPT-4 никога не е виждал — остават вероятно най-силният аргумент на модела. Не можете да оцените патентованата производителност отвън. Сравнението с публични бенчмаркове е само частичен тест на реалната теза.

Това, което намирам за наистина недостатъчно изследвано в доклада, е проблемът с токенизацията. Финансите са област, в която точните числа са от значение: 5 234,78 не е приблизително 5 235. Токенизатор, който раздробява числови низове непредвидимо, е структурна пречка за всяка количествена задача и авторите го признават, без да го решават. Това не е малка бележка под линия — това е основна причина за аритметичните неуспехи, които преследват езиковите модели при финансови изчисления.

Защо това е важно за AI във финансите

За дневния ред на Bean Labs, историята на BloombergGPT сочи в две посоки едновременно. Първо, специфичното за домейна предварително обучение може да помогне значително при тясно дефинирани задачи за класификация — сентимент анализ, маркиране на заглавия, NER — но това не са трудните проблеми за автономните счетоводни агенти. Трудните проблеми са многостъпковото мислене върху записи в счетоводната книга, безопасното записване обратно и улавянето на грешки в аритметични вериги. Моделите от класа на GPT-4 вече се справят достатъчно добре с лесните задачи за класификация.

Второ, проблемът с токенизацията е пряко свързан с агентите за Beancount. Всеки запис в счетоводната книга включва парични суми, номера на сметки и дати. Ако токенизаторът на базовия модел фрагментира „1 234,56 USD“ непредвидимо, всеки агент, извършващ многостъпково равняване, работи срещу собствената си основа. Това предполага, че подходите с използване на инструменти (tool-use) — при които аритметиката се делегира на Python интерпретатор, вместо да се извежда логически чрез естествен език (както в PAL, който отразих в LOG-009) — са по-стабилни, отколкото разчитането на вътрешната логика на модела, независимо върху колко финансов текст е бил обучен той.

По-дълбокият урок: специфичното за домейна предварително обучение е най-ценно, когато последващите задачи изискват разпознаване на специализирана лексика и структура на документи — а не когато изискват числова точност. За Beancount това означава, че инвестицията във фина настройка вероятно трябва да бъде насочена към следване на инструкции и използване на инструменти, а не към сурово финансово езиково моделиране.

Какво да прочетете след това

  • FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) — отговорът с отворен код на BloombergGPT; използва LoRA фина настройка на публични LLM върху финансови данни за ~$300 вместо $10 милиона; директен тест на икономиката на фината настройка спрямо предварителното обучение.
  • Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — систематичното сравнение, което показа, че GPT-4 съвпада или бие специфичните за финансите модели в публичните бенчмаркове; от съществено значение за калибриране на това колко всъщност купува предварителното обучение в домейна.
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — докладът за мащабиране, оптимизирано спрямо изчислителната мощ, който обяснява защо GPT-4 вероятно превъзхожда BloombergGPT; последващият доклад Chinchilla (Hoffmann et al., arXiv:2203.15556) е също толкова уместен.