Aller au contenu principal

BloombergGPT et les limites des LLM spécialisés dans la finance

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

BloombergGPT est arrivé en mars 2023 et est immédiatement devenu le point de référence de toute conversation sur les LLM spécialisés dans la finance. Je le lis maintenant non pas parce qu'il est d'actualité — il ne l'est pas — mais parce que l'histoire de ce qui s'est passé après son lancement est au moins aussi instructive que ce que contient l'article lui-même.

L'article

2026-05-05-bloomberggpt-large-language-model-finance

Wu et al. de chez Bloomberg ont entraîné un modèle de langage de 50 milliards de paramètres sur un corpus de 569 milliards de tokens divisé approximativement en deux : 363 milliards de tokens provenant de FinPile, un ensemble de données financières propriétaires constitué à partir des archives de Bloomberg remontant à 2007, et 345 milliards de tokens provenant d'ensembles de données publics à usage général. FinPile couvre des articles d'actualité, des dépôts réglementaires, des communiqués de presse, des transcriptions de conférences téléphoniques sur les résultats et des pages financières extraites du web. Le modèle lui-même suit une architecture LM causale de type décodeur uniquement (style BLOOM, utilisant des encodages positionnels ALiBi), entraîné sur 64 × 8 GPU A100 40 Go pendant 139 200 étapes.

La thèse centrale est que le pré-entraînement sur domaines mixtes — et pas seulement le réglage fin (fine-tuning) — produit un modèle qui « surpasse les modèles existants sur les tâches financières par des marges significatives sans sacrifier les performances sur les benchmarks LLM généraux ». C'est l'hypothèse fondatrice de la stratégie des LLM spécialisés : on peut avoir le beurre et l'argent du beurre.

Idées clés

  • Précision ConvFinQA : 43,41 % contre 30,06 % pour GPT-NeoX. Les gains les plus importants par rapport aux modèles de référence à échelle comparable sont apparus sur des tâches nécessitant un raisonnement en plusieurs étapes sur des tableaux financiers intégrés dans des conversations — exactement le genre de raisonnement structuré avec lequel les modèles généraux entraînés sur moins de données financières ont du mal.
  • Sentiment FiQA : 75,07 % F1 contre 50,59 % pour GPT-NeoX. Près de 25 points de plus sur l'analyse de sentiment financier. Les gains sur les tâches de classification avec un vocabulaire financier clair ont été les plus spectaculaires.
  • Les benchmarks internes racontaient une histoire encore plus frappante. Sur la tâche propriétaire d'analyse du sentiment des actualités boursières (Equity News Sentiment) de Bloomberg, BloombergGPT a atteint 79,63 % de F1 ; GPT-NeoX a atteint 14,17 %. Ces chiffres internes sont invérifiables, mais ils sont aussi tout l'intérêt de la démarche — Bloomberg a construit le modèle pour des tâches qu'ils sont les seuls à pouvoir définir.
  • La reconnaissance d'entités nommées (NER) a été le point faible notable. Sur la tâche NER financière, BloombergGPT a obtenu un score F1 de 60,82 %, légèrement derrière les 60,98 % de GPT-NeoX — un rappel que toutes les tâches NLP ne bénéficient pas de la même manière d'un pré-entraînement financier, et que les modèles génératifs peinent avec l'extraction de segments structurés quel que soit le domaine.
  • Le tokenizer de GPT-2 ne traitait pas les nombres de manière particulière. Un nombre comme 5 234 pouvait être divisé en plusieurs tokens de manière imprévisible. Les auteurs ont signalé cela comme une préoccupation pour le raisonnement numérique mais ne l'ont pas abordé architecturalement — ce qui importe énormément pour tout ce qui implique l'arithmétique des registres comptables.
  • L'instabilité de l'entraînement était réelle. Aux étapes 115 500, 129 900 et 137 100, la norme du gradient a explosé et l'équipe a dû revenir à des points de contrôle (checkpoints) antérieurs et réduire le taux d'apprentissage. L'appendice « Training Chronicles » de l'article est d'une franchise inhabituelle à ce sujet. Construire des LLM spécialisés à grande échelle est opérationnellement plus difficile que ce que suggère l'abstrait.

Ce qui tient la route — et ce qui ne tient pas

La conclusion principale — à savoir que l'ajout de données spécifiques au domaine améliore les performances des tâches financières par rapport à des modèles généraux de taille égale — est bien étayée et n'est pas surprenante. La question intéressante est de savoir si la marge justifie le coût.

Lorsque GPT-4 a été publié, plusieurs chercheurs (dont Ethan Mollick dans un fil de discussion largement cité) ont souligné que GPT-4 surpasse BloombergGPT sur presque tous les benchmarks financiers publics auxquels il a été comparé — bien que GPT-4 n'ait aucun accès aux données propriétaires de Bloomberg et n'ait reçu aucun pré-entraînement spécifique à la finance au-delà de ce qui figurait dans son corpus d'entraînement général. Une étude de Yang et al. (arXiv:2305.05862) a évalué ChatGPT et GPT-4 sur huit benchmarks NLP financiers et a révélé que GPT-4 était systématiquement compétitif ou supérieur aux modèles spécifiques à la finance affinés. Bloomberg aurait dépensé environ 10 millions de dollars pour l'entraînement. La leçon que le domaine en a tirée : l'échelle bat la spécialisation lorsque la frontière progresse assez vite.

Cette interprétation est cependant trop simpliste. Les benchmarks internes de BloombergGPT — ceux impliquant une terminologie et des formats de documents spécifiques à Bloomberg que GPT-4 n'a jamais vus — restent plausiblement l'argument le plus fort du modèle. On ne peut pas évaluer les performances propriétaires de l'extérieur. La comparaison avec les benchmarks publics est un test partiel de la thèse réelle.

Ce que je trouve véritablement sous-examiné dans l'article, c'est le problème de la tokenisation. La finance est un domaine où les chiffres exacts comptent : 5 234,78 n'est pas approximativement 5 235. Un tokenizer qui déchiquette les chaînes numériques de manière imprévisible est un handicap structurel pour toute tâche quantitative, et les auteurs le reconnaissent sans le résoudre. Ce n'est pas une note de bas de page mineure — c'est une cause profonde des échecs arithmétiques qui affligent les modèles de langage lors des calculs financiers.

Pourquoi cela compte pour l'IA en finance

Pour l'agenda de Bean Labs, l'histoire de BloombergGPT pointe dans deux directions simultanément. Premièrement, le pré-entraînement spécifique au domaine peut aider de manière significative sur des tâches de classification étroites — sentiment, marquage de titres, NER — mais ce ne sont pas les problèmes difficiles pour les agents comptables autonomes. Les problèmes difficiles sont le raisonnement en plusieurs étapes sur les écritures comptables, l'écriture sécurisée et la détection d'erreurs dans les chaînes arithmétiques. Les modèles de la classe GPT-4 gèrent déjà assez bien les tâches de classification faciles.

Deuxièmement, la question de la tokenisation est directement pertinente pour les agents Beancount. Chaque écriture de journal implique des montants monétaires, des numéros de compte et des dates. Si le tokenizer du modèle sous-jacent fragmente « 1 234,56 USD » de manière imprévisible, tout agent effectuant un rapprochement en plusieurs étapes travaille contre son propre substrat. Cela suggère que les approches basées sur l'utilisation d'outils — où l'arithmétique est déléguée à un interpréteur Python plutôt que raisonnée en langage naturel (comme dans PAL, que j'ai couvert dans LOG-009) — sont plus robustes que de s'appuyer sur les composants internes du modèle, quel que soit le volume de texte financier sur lequel le modèle a été entraîné.

La leçon plus profonde : le pré-entraînement spécifique au domaine est plus précieux lorsque les tâches en aval nécessitent la reconnaissance d'un vocabulaire spécialisé et de la structure des documents — et non lorsqu'elles nécessitent une précision numérique. Pour Beancount, cela signifie que l'investissement dans le réglage fin (fine-tuning) devrait probablement cibler le suivi d'instructions et l'utilisation d'outils plutôt que la modélisation brute du langage financier.

Que lire ensuite

  • FinGPT : Modèles de langage financiers open source (Yang et al., 2023, arXiv:2306.06031) — la réponse open source à BloombergGPT ; utilise le fine-tuning LoRA de LLM publics sur des données financières pour environ 300 $ au lieu de 10 millions $ ; un test direct de l'économie du fine-tuning versus le pré-entraînement.
  • Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — la comparaison systématique qui a montré que GPT-4 égalait ou battait les modèles spécifiques à la finance sur les benchmarks publics ; essentiel pour calibrer ce que le pré-entraînement par domaine apporte réellement.
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — l'article sur la mise à l'échelle optimale du calcul qui explique pourquoi GPT-4 surpasse probablement BloombergGPT ; le suivi Chinchilla (Hoffmann et al., arXiv:2203.15556) est tout aussi pertinent.