BloombergGPT a limity doménovo špecifických LLM vo financiách
BloombergGPT sa objavil v marci 2023 a okamžite sa stal referenčným bodom pre každú diskusiu o doménovo špecifických LLM vo financiách. Čítam ho teraz nie preto, že by bol aktuálny – nie je – ale preto, že príbeh o tom, čo sa stalo potom, ako bol vydaný, je minimálne tak poučný ako samotný článok.
Odborný článok
Wu a kol. zo spoločnosti Bloomberg vytrénovali 50-miliardový jazykový model na korpuse s 569 miliardami tokenov, ktorý bol rozdelený zhruba na polovicu: 363 miliárd tokenov z FinPile, proprietárneho finančného datasetu zostaveného z archívov Bloomberg siahajúcich až do roku 2007, a 345 miliárd tokenov zo všeobecných verejných datasetov. FinPile pokrýva spravodajské články, podania na regulačné úrady, tlačové správy, prepisy hovorov k hospodárskym výsledkom a webové finančné stránky. Samotný model využíva kauzálnu LM architektúru typu decoder-only (štýl BLOOM, s použitím pozičného kódovania ALiBi), trénovanú na 64 × 8 GPU A100 40GB počas 139 200 krokov.
Hlavným tvrdením je, že predtrénovanie na zmiešaných doménach – nielen doladenie (fine-tuning) – vytvára model, ktorý „výrazne prekonáva existujúce modely vo finančných úlohách bez toho, aby obetoval výkon vo všeobecných LLM benchmarkoch“. Toto je základná hypotéza stratégie doménovo špecifických LLM: že sa dá dosiahnuť oboje súčasne.
Kľúčové myšlienky
- Presnosť ConvFinQA: 43,41 % oproti GPT-NeoX 30,06 %. Najväčšie zisky v porovnaní s bazálnymi modelmi podobnej mierky sa objavili pri úlohách vyžadujúcich viacstupňové uvažovanie nad finančnými tabuľkami vloženými do konverzácie – presne ten druh štruktúrovaného uvažovania, s ktorým majú všeobecné modely trénované na menšom množstve finančných dát problémy.
- Sentiment FiQA: 75,07 % F1 oproti GPT-NeoX 50,59 %. Takmer o 25 bodov vyššie skóre v analýze finančného sentimentu. Zisky v klasifikačných úlohách s jasnou finančnou slovnou zásobou boli najdramatickejšie.
- Interné benchmarky vykreslili ešte jasnejší obraz. V úlohe Equity News Sentiment (sentiment akciových správ) od Bloombergu dosiahol BloombergGPT 79,63 % F1; GPT-NeoX dosiahol 14,17 %. Tieto interné čísla sú neoveriteľné, ale sú zároveň pointou celého snaženia – Bloomberg vytvoril model pre úlohy, ktoré vie definovať len on sám.
- NER bol výraznou slabinou. V úlohe finančného NER (rozpoznávanie pomenovaných entít) dosiahol BloombergGPT skóre 60,82 % F1, čo bolo mierne za GPT-NeoX so 60,98 % – pripomienka, že nie všetky NLP úlohy profitujú z finančného predtrénovania rovnako a že generatívne modely majú problémy s extrakciou štruktúrovaných úsekov textu bez ohľadu na doménu.
- Tokenizer z GPT-2 nezaobchádzal s číslami špeciálne. Číslo ako 5 234 mohlo byť rozdelené medzi tokeny nepredvídateľným spôsobom. Autori to označili za problém pre numerické uvažovanie, ale neriešili to architektonicky – čo je nesmierne dôležité pre čokoľvek, čo zahŕňa aritmetiku v účtovných knihách.
- Nestabilita tréningu bola skutočná. V krokoch 115 500, 129 900 a 137 100 norma gradientu prudko vzrástla a tím musel vrátiť kontrolné body (checkpoints) a znížiť rýchlosť učenia (learning rate). Príloha Training Chronicles je v tomto nezvyčajne úprimná. Budovanie doménových LLM vo veľkom meradle je operatívne náročnejšie, než naznačuje teória.
Čo obstojí – a čo nie
Základné zistenie – že pridanie doménovo špecifických údajov zlepšuje výkon vo finančných úlohách v porovnaní s rovnako veľkými všeobecnými modelmi – je dobre podložené a nie je prekvapujúce. Zaujímavou otázkou je, či tento prínos ospravedlňuje náklady.
Keď bol vydaný model GPT-4, viacerí výskumníci (vrátane Ethana Mollicka v často citovanom vlákne) poukázali na to, že GPT-4 prekonáva BloombergGPT v takmer každom verejnom finančnom benchmarku, s ktorým bol porovnávaný – napriek tomu, že GPT-4 nemal prístup k proprietárnym dátam Bloombergu a nedostal žiadne finančne špecifické predtrénovanie okrem toho, čo bolo v jeho všeobecnom tréningovom korpuse. Štúdia Yanga a kol. (arXiv:2305.05862) vyhodnotila ChatGPT a GPT-4 v ôsmich finančných NLP benchmarkoch a zistila, že GPT-4 je konzistentne konkurencieschopný alebo lepší ako doladené (fine-tuned) modely špecifické pre financie. Bloomberg údajne minul na tréning približne 10 miliónov dolárov. Poučenie, ktoré si z toho odniesol odbor: mierka (scale) poráža špecializáciu, keď sa hranica pokroku posúva dostatočne rýchlo.
Táto interpretácia je však príliš zjednodušená. Interné benchmarky BloombergGPT – tie, ktoré zahŕňajú terminológiu špecifickú pre Bloomberg a formáty dokumentov, ktoré GPT-4 nikdy nevidel – zostávajú pravdepodobne najsilnejším argumentom pre tento model. Proprietárny výkon nemôžete hodnotiť zvonku. Porovnanie verejných benchmarkov je len čiastočným testom skutočnej tézy.
To, čo považujem v článku za skutočne nedostatočne preskúmané, je problém tokenizácie. Financie sú doménou, kde na presných číslach záleží: 5 234,78 nie je približne 5 235. Tokenizer, ktorý nepredvídateľne rozseká číselné reťazce, je štrukturálnou slabinou pre akúkoľvek kvantitatívnu úlohu, a autori to priznávajú bez toho, aby to vyriešili. Toto nie je len drobná poznámka pod čiarou – je to hlavná príčina zlyhaní v aritmetike, ktoré trápia jazykové modely pri finančných výpočtoch.
Prečo je to dôležité pre finančnú AI
Pre agendu Bean Labs ukazuje príbeh BloombergGPT dvoma smermi súčasne. Po prvé, doménovo špecifické predtrénovanie môže výrazne pomôcť pri úzkych klasifikačných úlohách – sentiment, značkovanie nadpisov, NER – ale to nie sú tie najťažšie problémy pre autonómnych účtovníckych agentov. Ťažkými problémami sú viacstupňové uvažovanie nad záznamami v účtovnej knihe, bezpečný spätný zápis a zachytávanie chýb v aritmetických reťazcoch. Modely triedy GPT-4 už zvládajú jednoduché klasifikačné úlohy dostatočne dobre.
Po druhé, problém s tokenizáciou je priamo relevantný pre Beancount agentov. Každý záznam v účtovnej knihe zahŕňa peňažné sumy, čísla účtov a dátumy. Ak tokenizer podkladového modelu nepredvídateľne fragmentuje „1 234,56 USD“, každý agent vykonávajúci viacstupňovú rekonsiliáciu pracuje proti vlastnému substrátu. To naznačuje, že prístupy využívajúce nástroje – kde je aritmetika delegovaná na Python interpretér namiesto uvažovania v prirodzenom jazyku (ako v PAL, o ktorom som písal v LOG-009) – sú robustnejšie než spoliehanie sa na vnútro modelu, bez ohľadu na to, na koľkých finančných textoch bol model vytrénovaný.
Hlbšie poučenie: doménovo špecifické predtrénovanie je najcennejšie vtedy, keď následné úlohy vyžadujú rozpoznávanie špecializovanej slovnej zásoby a štruktúry dokumentov – nie vtedy, keď vyžadujú numerickú presnosť. Pre Beancount to znamená, že investícia do doladenia (fine-tuning) by sa mala pravdepodobne zamerať na dodržiavanie inštrukcií a používanie nástrojov, skôr než na čisté modelovanie finančného jazyka.
Čo čítať ďalej
- FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) – open-source odpoveď na BloombergGPT; využíva LoRA doladenie verejných LLM na finančných dátach za približne 300 dolárov namiesto 10 miliónov; priamy test ekonomiky doladenia oproti predtrénovaniu.
- Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) – systematické porovnanie, ktoré ukázalo, že GPT-4 sa vyrovnáva alebo prekonáva finančne špecifické modely vo verejných benchmarkoch; nevyhnutné pre kalibráciu toho, čo nám doménové predtrénovanie v skutočnosti prináša.
- Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) – článok o škálovaní optimálnom z hľadiska výpočtov, ktorý vysvetľuje, prečo GPT-4 pravdepodobne prekonáva BloombergGPT; nadväzujúca práca Chinchilla (Hoffmann et al., arXiv:2203.15556) je rovnako relevantná.
