BloombergGPT と金融におけるドメイン特化型 LLM の限界
BloombergGPT は 2023 年 3 月に登場し、金融におけるドメイン特化型 LLM に関するあらゆる議論のリファレンスポイントとなりました。今これを読んでいるのは、最新だからではなく(そうではありません)、リリース後に何が起きたかという物語が、論文自体の内容と同じくらい有益だからです。
論文について
Bloomberg の Wu 氏らは、約半分に分割された 5,690 億トークンのコーパスで 500 億パラメータの言語モデルをトレーニングしました。2007 年まで遡る Bloomberg のアーカイブから構築された独自の金融データセット「FinPile」から 3,630 億トークン、そして汎用的な公開データセットから 3,450 億トークンです。FinPile は、ニュース記事、提出書類、プレスリリース、収益報告のトランスクリプト、ウェブス クレイピングされた金融ページをカバーしています。モデル自体はデコーダーのみの因果的 LM アーキテクチャ(ALiBi 位置エンコーディングを使用した BLOOM スタイル)を採用し、64 × 8 枚の A100 40GB GPU で 139,200 ステップかけてトレーニングされました。
中心的な主張は、単なるファインチューニングではなく、混合ドメインの事前学習を行うことで、「汎用 LLM ベンチマークの性能を犠牲にすることなく、金融タスクにおいて既存のモデルを大幅に上回る」モデルが生成されるということです。これがドメイン特化型 LLM 戦略の基本仮説です。つまり、二兎を追うことができるというわけです。
主要なアイデア
- ConvFinQA の精度:43.41% vs GPT-NeoX 30.06%。 同規模のベースラインに対する最大の改善は、会話に組み込まれた金融テーブルに対する多段階の推論を必要とするタスクで見られました。これは、金融データの少ない汎用モデルが苦手とする構造化された推論そのものです。
- FiQA の感情分析:75.07% F1 vs GPT-NeoX 50.59%。 金融感情分析において 25 ポイント近く高いスコアを記録しました。明確な金融用語を伴う分類タスクでの向上が最も劇的でした。
- 内部ベンチマークではさらに顕著な差。 Bloomberg 独自の Equity News Sentiment タスクでは、BloombergGPT は 79.63% F1 を記録しましたが、GPT-NeoX は 14.17% でした。これらの内部数値は検証不可能ですが、そ れこそがポイントです。Bloomberg は、彼らだけが定義できるタスクのためにモデルを構築したのです。
- NER(固有表現抽出)は顕著な弱点。 金融 NER タスクにおいて、BloombergGPT のスコアは 60.82% F1 で、GPT-NeoX の 60.98% をわずかに下回りました。これは、すべての自然言語処理タスクが金融の事前学習から同等の恩恵を受けるわけではなく、生成モデルはドメインに関係なく構造化されたスパン抽出に苦労することを再認識させます。
- GPT-2 トークナイザーは数値を特別扱いしなかった。 5,234 のような数字は、予測不可能な方法でトークン間に分割される可能性があります。著者らはこれを数値推論の懸念事項として挙げていますが、アーキテクチャ的に解決はしていません。これは、元帳の計算を伴うあらゆることにおいて非常に重要です。
- トレーニングの不安定さは現実だった。 ステップ 115,500、129,900、137,100 において勾配ノルムが急上昇し、チームはチェックポイントをロールバックして学習率を下げる必要がありました。論文の付録「Training Chronicles」はこの点について異例なほど率直です。ドメイン LLM を大規模に構築することは、抽象論よりも運用面で困難です。
何が正しく、何が違ったのか
同規模の汎用モデルと比較して、ドメイン固有のデータを追加することで金融タスクの パフォーマンスが向上するという核心的な発見は、十分に裏付けられており驚くべきことではありません。興味深いのは、その差がコストに見合うかどうかです。
GPT-4 がリリースされた際、複数の研究者(広く引用されたスレッドの Ethan Mollick 氏を含む)は、比較対象となったほぼすべての公開金融ベンチマークにおいて GPT-4 が BloombergGPT を上回っていることを指摘しました。GPT-4 は Bloomberg の独自データにアクセスできず、一般的なトレーニングコーパスに含まれる以上の金融特化の事前学習も受けていないにもかかわらずです。Yang 氏らによる研究 (arXiv:2305.05862) では、ChatGPT と GPT-4 を 8 つの金融 NLP ベンチマークで評価し、GPT-4 がファインチューニングされた金融特化型モデルと一貫して同等またはそれ以上であることを発見しました。Bloomberg はトレーニングに約 1,000 万ドルを費やしたと報じられています。この分野がここから学んだ教訓は、「フロンティアの進化が十分に速い場合、スケール(規模)は専門化に勝る」ということです。
しかし、その解釈はあまりに単純すぎます。GPT-4 が見たことのない Bloomberg 独自の用語やドキュメント形式を含む BloombergGPT の内部ベンチマークは、依然としてこのモデルの最強の論拠であり続けています。外部から独自データのパフォーマンスを評価することはできません。公開ベンチマークによる比較は、真の仮説の部分的なテストに過ぎません。
私がこの論文で真に過小評価されていると感じるのは、トークン化の問題です。金融は正確な数値が重要なドメインです。5,234.78 は、およそ 5,235 ではありません。数値文字列を予測不可能に断片化するトー クナイザーは、あらゆる定量的タスクにおいて構造的な負債となります。著者らはこれを解決することなく認めています。これは些細な注釈ではなく、金融計算において言語モデルを悩ませる算術的失敗の根本原因です。
なぜこれが金融 AI にとって重要なのか
Bean Labs のアジェンダにとって、BloombergGPT の物語は同時に二つの方向を指し示しています。第一に、ドメイン特化の事前学習は、感情分析、ヘッドラインのタグ付け、NER といった狭い分類タスクには大きく役立ちますが、これらは自律型会計エージェントにとっての難問ではありません。難問とは、元帳エントリに対する多段階の推論、安全な書き戻し、そして計算チェーンにおけるエラーの検出です。GPT-4 クラスのモデルは、簡単な分類タスクをすでに十分に処理できています。
第二に、トークン化の問題は Beancount エージェントに直接関係します。すべての元帳エントリには、金額、勘定科目番号、日付が含まれます。基礎となるモデルのトークナイザーが「1,234.56 USD」を予測不可能に断片化する場合、多段階の照合を行うエージェントは自らの基盤と戦っていることになります。これは、モデル内部の能力に頼るよりも、(LOG-009 で取り上げた PAL のように)計算を Python インタープリタに委任するツール利用(tool-use)アプローチの方が、モデルがどれほ ど金融テキストでトレーニングされていようとも堅牢であることを示唆しています。
より深い教訓:ドメイン特化の事前学習が最も価値を発揮するのは、ダウンストリームのタスクが専門的な語彙や文書構造の認識を必要とする場合であり、数値的な精度を必要とする場合ではありません。Beancount にとって、これはファインチューニングの投資対象を、生の金融言語モデリングではなく、指示への追従とツール利用に向けるべきであることを意味します。
次に読むべきもの
- FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) — BloombergGPT へのオープンソース側からの回答。1,000 万ドルではなく約 300 ドルで、公開 LLM を金融データで LoRA ファインチューニングしたもので、ファインチューニングと事前学習の経済性の直接的なテストとなっています。
- Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — 公開ベンチマークで GPT-4 が金融特化型モデルに匹敵、あるいは勝利したことを示した系統的な比較。ドメイン事前学習が実際に何をもたらしているかを測定するのに不可欠です。
- Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — なぜ GPT-4 が BloombergGPT を上回る可能性が高いのかを説明する、計算最適化スケーリングに関する論文。Chinchilla のフォローアップ論文 (Hoffmann et al., arXiv:2203.15556) も同様に重要です。