Doorgaan naar hoofdinhoud

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

BloombergGPT verscheen in maart 2023 en werd onmiddellijk het referentiepunt voor elk gesprek over domeinspecifieke LLM's in de financiële sector. Ik lees het nu niet omdat het actueel is — dat is het niet — maar omdat het verhaal van wat er gebeurde nadat het werd uitgebracht minstens zo leerzaam is als wat er in de paper zelf staat.

De paper

2026-05-05-bloomberggpt-large-language-model-finance

Wu et al. van Bloomberg trainden een taalmodel met 50 miljard parameters op een corpus van 569 miljard tokens, grofweg in tweeën gesplitst: 363 miljard tokens uit FinPile, een eigen financiële dataset samengesteld uit Bloomberg's archieven die teruggaan tot 2007, en 345 miljard tokens uit algemene publieke datasets. FinPile omvat nieuwsartikelen, deponeringen, persberichten, transcripties van winstoproepen en van het web geschraapte financiële pagina's. Het model zelf volgt een decoder-only causaal LM-architectuur (BLOOM-stijl, met ALiBi positionele coderingen), getraind op 64 × 8 A100 40GB GPU's gedurende 139.200 stappen.

De centrale bewering is dat pre-training in gemengde domeinen — en niet alleen fine-tuning — een model oplevert dat "bestaande modellen op financiële taken met aanzienlijke marges overtreft zonder aan prestaties in te boeten op algemene LLM-benchmarks." Dit is de fundamentele hypothese van de domeinspecifieke LLM-strategie: je kunt van twee walletjes eten.

Belangrijkste ideeën

  • ConvFinQA-nauwkeurigheid: 43,41% vs GPT-NeoX 30,06%. De grootste winst ten opzichte van baselines van vergelijkbare schaal was te zien bij taken die redeneren in meerdere stappen vereisten over financiële tabellen in gesprekken — precies het soort gestructureerd redeneren waar algemene modellen die met minder financiële gegevens zijn getraind, moeite mee hebben.
  • FiQA-sentiment: 75,07% F1 vs GPT-NeoX 50,59%. Bijna 25 punten hoger op financiële sentimentanalyse. De winst op classificatietaken met een duidelijk financieel vocabulaire was het grootst.
  • Interne benchmarks vertelden een nog duidelijker verhaal. Op Bloomberg's eigen Equity News Sentiment-taak behaalde BloombergGPT een F1-score van 79,63%; GPT-NeoX behaalde 14,17%. Die interne cijfers zijn niet te verifiëren, maar ze zijn ook de hele essentie — Bloomberg bouwde het model voor taken die alleen zij kunnen definiëren.
  • NER was de opvallende zwakke plek. Op de financiële NER-taak scoorde BloombergGPT 60,82% F1, net achter de 60,98% van GPT-NeoX — een herinnering dat niet alle NLP-taken evenveel baat hebben bij financiële pre-training, en dat generatieve modellen moeite hebben met gestructureerde extractie van tekstfragmenten, ongeacht het domein.
  • De GPT-2 tokenizer behandelde getallen niet op een speciale manier. Een getal als 5.234 kon op onvoorspelbare manieren over tokens worden verdeeld. De auteurs merkten dit op als een punt van zorg voor numeriek redeneren, maar pakten dit niet architectonisch aan — wat enorm belangrijk is voor alles wat te maken heeft met rekenwerk in grootboeken.
  • Trainingsinstabiliteit was een feit. Bij stappen 115.500, 129.900 en 137.100 schoot de gradiëntnorm omhoog en moest het team checkpoints terugdraaien en de leersnelheid verlagen. De appendix 'Training Chronicles' van de paper is hier ongebruikelijk openhartig over. Het bouwen van domein-LLM's op schaal is operationeel lastiger dan de theorie suggereert.

Wat standhoudt — en wat niet

De kernbevinding — dat het toevoegen van domeinspecifieke gegevens de prestaties bij financiële taken verbetert ten opzichte van algemene modellen van gelijke grootte — wordt goed onderbouwd en is niet verrassend. De interessante vraag is of de marge de kosten rechtvaardigt.

Toen GPT-4 werd uitgebracht, wezen verschillende onderzoekers (waaronder Ethan Mollick in een veelgeciteerde thread) erop dat GPT-4 BloombergGPT overtreft op bijna elke publieke financiële benchmark waarmee het werd vergeleken — ondanks het feit dat GPT-4 geen toegang had tot de eigen gegevens van Bloomberg en geen finance-specifieke pre-training ontving buiten wat in zijn algemene trainingscorpus stond. Een onderzoek door Yang et al. (arXiv:2305.05862) evalueerde ChatGPT en GPT-4 op acht financiële NLP-benchmarks en stelde vast dat GPT-4 consistent concurrerend was met of superieur was aan gefinetunede finance-specifieke modellen. Bloomberg besteedde naar verluidt ongeveer $10 miljoen aan de trainingsrun. De les die het vakgebied hieruit trok: schaal wint van specialisatie wanneer de grens snel genoeg verschuift.

Die interpretatie is echter te simpel. De interne benchmarks van BloombergGPT — die met Bloomberg-specifieke terminologie en documentformaten die GPT-4 nog nooit heeft gezien — blijven waarschijnlijk het sterkste argument voor het model. Je kunt propriëtaire prestaties niet van buitenaf beoordelen. De vergelijking met publieke benchmarks is een gedeeltelijke test van de werkelijke stelling.

Wat ik echt onderbelicht vind in de paper is het probleem van de tokenisatie. Financiën is een domein waar exacte getallen ertoe doen: 5.234,78 is niet ongeveer 5.235. Een tokenizer die numerieke strings onvoorspelbaar versnippert, is een structureel nadeel voor elke kwantitatieve taak, en de auteurs erkennen dit zonder het op te lossen. Dit is geen kleine voetnoot — het is een dieperliggende oorzaak van de rekenfouten die taalmodellen teisteren bij financiële berekeningen.

Waarom dit belangrijk is voor financiële AI

Voor de agenda van Bean Labs wijst het BloombergGPT-verhaal tegelijkertijd in twee richtingen. Ten eerste kan domeinspecifieke pre-training aanzienlijk helpen bij nauwe classificatietaken — sentiment, headline-tagging, NER — maar dat zijn niet de moeilijke problemen voor autonome boekhoudagenten. De moeilijke problemen zijn het redeneren in meerdere stappen over grootboekmutaties, veilige terugschrijvingen en het opvangen van fouten in rekenreeksen. Modellen in de klasse van GPT-4 kunnen de eenvoudige classificatietaken al goed genoeg aan.

Ten tweede is de tokenisatie-kwestie direct relevant voor Beancount-agenten. Elke grootboekmutatie bevat geldbedragen, rekeningnummers en data. Als de tokenizer van het onderliggende model "1.234,56 USD" onvoorspelbaar fragmenteert, werkt elke agent die reconciliatie in meerdere stappen uitvoert tegen zijn eigen fundament in. Dit suggereert dat benaderingen met tool-gebruik — waarbij rekenwerk wordt gedelegeerd aan een Python-interpreter in plaats van beredeneerd in natuurlijke taal (zoals in PAL, dat ik in LOG-009 behandelde) — robuuster zijn dan te vertrouwen op de interne logica van het model, ongeacht hoeveel financiële tekst het model heeft gezien tijdens de training.

De diepere les: domeinspecifieke pre-training is het meest waardevol wanneer de vervolgtaken het herkennen van gespecialiseerde woordenschat en documentstructuur vereisen — niet wanneer ze numerieke precisie vereisen. Voor Beancount betekent dit dat de investering in fine-tuning zich waarschijnlijk moet richten op het volgen van instructies en tool-gebruik in plaats van op pure financiële taalmodellering.

Wat je nu kunt lezen

  • FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) — de open-source reactie op BloombergGPT; gebruikt LoRA-fine-tuning van publieke LLM's op financiële gegevens voor ~$300 in plaats van $10 miljoen; een directe test van de economie van fine-tuning versus pre-training.
  • Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — de systematische vergelijking die liet zien dat GPT-4 finance-specifieke modellen evenaarde of versloeg op publieke benchmarks; essentieel om in te schatten hoeveel domein-pre-training daadwerkelijk oplevert.
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — de paper over compute-optimale schaling die verklaart waarom GPT-4 waarschijnlijk beter presteert dan BloombergGPT; de Chinchilla-follow-up (Hoffmann et al., arXiv:2203.15556) is evenzeer relevant.