BloombergGPT i els límits dels LLM de domini específic en finances
BloombergGPT va arribar el març de 2023 i es va convertir immediatament en el punt de referència per a totes les converses sobre LLM de domini específic en finances. Ho estic llegint ara no perquè sigui actual —no ho és—, sinó perquè la història del que va passar després del seu llançament és almenys tan instructiva com el que hi ha al propi article.
L'article
Wu et al. de Bloomberg van entrenar un model de llenguatge de 50.000 milions de paràmetres en un corpus de 569.000 milions de tokens dividit aproximadament per la meitat: 363B de tokens de FinPile, un conjunt de dades financeres propietat de Bloomberg recopilat dels seus arxius des de 2007, i 345B de tokens de conjunts de dades públics de propòsit general. FinPile inclou articles de notícies, presentacions oficials, notes de premsa, transcripcions de trucades de resultats i pàgines financeres extretes del web. El model segueix una arquitectura d'LM causal només de descodificador (estil BLOOM, utilitzant codificacions posicionals ALiBi), entrenat en 64 × 8 GPUs A100 de 40 GB durant 139.200 passos.
L'afirmació central és que el preentrenament de domini mixt —no només el fine-tuning— produeix un model que "supera els models existents en tasques financeres per marges significatius sense sacrificar el rendiment en les proves de referència generals d'LLM". Aquesta és la hipòtesi fonamental de l'estratègia d'LLM de domini específic: pots tenir-ho tot.
Idees clau
- Precisió de ConvFinQA: 43,41% vs GPT-NeoX 30,06%. Els majors guanys respecte a les línies base d'escala comparable van aparèixer en tasques que requerien un raonament de diversos passos sobre taules financeres integrades en converses —exactament el tipus de raonament estructurat amb què tenen dificultats els models generals entrenats amb menys dades financeres.
- Sentiment de FiQA: 75,07% F1 vs GPT-NeoX 50,59%. Gairebé 25 punts més en l'anàlisi de sentiment financer. Els guanys en tasques de classificació amb un vocabulari financer clar van ser els més espectaculars.
- Les proves de referència internes explicaven una història encara més contundent. En la tasca de sentiment de notícies d'accions de Bloomberg, BloombergGPT va assolir un F1 del 79,63%; GPT-NeoX va arribar al 14,17%. Aquestes xifres internes no es poden verificar, però són el punt clau: Bloomberg va construir el model per a tasques que només ells poden definir.
- L'NER va ser el punt feble notable. En la tasca d'NER financer, BloombergGPT va obtenir un F1 del 60,82%, lleugerament per sota del 60,98% de GPT-NeoX —un recordatori que no totes les tasques de PLN es beneficien igual del preentrenament financer, i que els models generatius tenen dificultats amb l'extracció d'intervals estructurats independentment del domini.
- El tokenitzador de GPT-2 no tractava els números de manera especial. Un número com 5.234 es podia dividir en diversos tokens de manera impredictible. Els autors ho van assenyalar com una preocupació per al raonament numèric però no ho van abordar arquitectònicament —cosa que importa enormement per a qualsevol cosa que impliqui aritmètica de llibres comptables.
- La inestabilitat de l'entrenament va ser real. Als passos 115.500, 129.900 i 137.100, la norma del gradient es va disparar i l'equip va haver de retrocedir als punts de control i reduir la taxa d'aprenentatge. L'apèndix "Training Chronicles" de l'article és inusualment sincer sobre això. Construir LLM de domini a escala és operativament més difícil del que suggereix l'abstracció.
Què es manté i què no
La troballa principal —que afegir dades específiques de domini millora el rendiment de les tasques financeres en comparació amb models generals de la mateixa mida— està ben fonamentada i no és sorprenent. La pregunta interessant és si el marge justifica el cost.
Quan es va llançar GPT-4, diversos investigadors (inclòs Ethan Mollick en un fil molt citat) van assenyalar que GPT-4 supera BloombergGPT en gairebé totes les proves de referència financeres públiques amb què es va comparar —malgrat que GPT-4 no té accés a les dades privades de Bloomberg i no va rebre cap preentrenament específic per a finances més enllà del que apareixia en el seu corpus d'entrenament general. Un estudi de Yang et al. (arXiv:2305.05862) va avaluar ChatGPT i GPT-4 en vuit proves de referència de PLN financer i va trobar que GPT-4 és consistentment competitiu o superior als models específics de finances ajustats. Segons s'informa, Bloomberg va gastar uns 10 milions de dòlars en l'entrenament. La lliçó que el sector va extreure d'això: l'escala supera l'especialització quan la frontera avança prou ràpid.
Aquesta interpretació és massa simplista, però. Les proves de referència internes de BloombergGPT —les que impliquen terminologia específica de Bloomberg i formats de documents que GPT-4 mai ha vist— continuen sent, plausiblement, l'argument més fort del model. No es pot avaluar el rendiment de dades privades des de fora. La comparació amb proves de referència públiques és una prova parcial de la tesi real.
El que trobo realment poc examinat a l'article és el problema de la tokenització. Les finances són un domini on els números exactes importen: 5.234,78 no és aproximadament 5.235. Un tokenitzador que fragmenta les cadenes numèriques de manera impredictible és un desavantatge estructural per a qualsevol tasca quantitativa, i els autors ho reconeixen sense resoldre-ho. Això no és una nota al peu menor —és una causa fonamental dels errors aritmètics que afecten els models de llenguatge en els càlculs financers.
Per què això és important per a la IA en finances
Per a l'agenda de Bean Labs, la història de BloombergGPT apunta en dues direccions simultàniament. En primer lloc, el preentrenament específic de domini pot ajudar significativament en tasques de classificació estretes —sentiment, etiquetatge de titulars, NER—, però aquests no són els problemes difícils per als agents de comptabilitat autònoms. Els problemes difícils són el raonament de diversos passos sobre les entrades del llibre major, l'escriptura segura i la detecció d'errors en cadenes aritmètiques. Els models de la classe GPT-4 ja gestionen prou bé les tasques de classificació fàcils.
En segon lloc, el problema de la tokenització és directament rellevant per als agents de Beancount. Cada entrada del llibre major implica imports monetaris, números de compte i dates. Si el tokenitzador del model subjacent fragmenta "1.234,56 USD" de manera impredictible, qualsevol agent que faci una conciliació de diversos passos està treballant contra el seu propi substrat. Això suggereix que els enfocaments d'ús d'eines —on l'aritmètica es delega a un intèrpret de Python en lloc de raonar-se mitjançant el llenguatge natural (com en PAL, que vaig tractar a LOG-009)— són més robustos que confiar en les capacitats internes del model, independentment de quant text financer s'hagi utilitzat per entrenar-lo.
La lliçó més profunda: el preentrenament específic de domini és més valuós quan les tasques posteriors requereixen reconèixer vocabulari especialitzat i estructura de documents, no quan requereixen precisió numèrica. Per a Beancount, això significa que la inversió en fine-tuning s'hauria de centrar probablement en el seguiment d'instruccions i l'ús d'eines més que en el modelatge de llenguatge financer pur.
Què llegir a continuació
- FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) — la resposta de codi obert a BloombergGPT; utilitza fine-tuning LoRA de models LLM públics amb dades financeres per uns 300 $ en lloc de 10 M$; una prova directa de l'economia del fine-tuning vs el preentrenament.
- Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — la comparació sistemàtica que va mostrar que GPT-4 igualava o superava els models específics de finances en proves de referència públiques; essencial per calibrar quant aporta realment el preentrenament de domini.
- Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — l'article sobre l'escalat òptim de computació que emmarca per què GPT-4 probablement supera BloombergGPT; el seguiment de Chinchilla (Hoffmann et al., arXiv:2203.15556) és igualment rellevant.
