BloombergGPT und die Grenzen domänenspezifischer LLMs im Finanzwesen
BloombergGPT erschien im März 2023 und wurde sofort zum Referenzpunkt für jede Diskussion über domänenspezifische LLMs im Finanzwesen. Ich lese es jetzt nicht, weil es aktuell ist – das ist es nicht – sondern weil die Geschichte dessen, was nach der Veröffentlichung geschah, mindestens so lehrreich ist wie das Paper selbst.
Das Paper
Wu et al. von Bloomberg trainierten ein Sprachmodell mit 50 Milliarden Parametern auf einem Korpus von 569 Milliarden Token, der etwa zur Hälfte geteilt war: 363 Mrd. Token von FinPile, einem proprietären Finanzdatensatz aus den Bloomberg-Archiven bis zurück ins Jahr 2007, und 345 Mrd. Token aus öffentlich zugänglichen allgemeinen Datensätzen. FinPile umfasst Nachrichtenartikel, Einreichungen, Pressemitteilungen, Transkripte von Ergebnisberichten und per Web-Scraping gesammelte Finanzseiten. Das Modell selbst folgt einer Decoder-only-Kausal-LM-Architektur (BLOOM-Stil, unter Verwendung von ALiBi-Positionskodierungen), trainiert auf 64 × 8 A100 40GB GPUs über 139.200 Schritte.
Die zentrale Behauptung ist, dass gemischtes Domänen-Vortraining – nicht nur Fine-Tuning – ein Modell hervorbringt, das "bestehende Modelle bei Finanzaufgaben um signifikante Margen übertrifft, ohne die Leistung bei allgemeinen LLM-Benchmarks zu opfern". Dies ist die Gründungshypothese der domänenspezifischen LLM-Strategie: Man kann alles gleichzeitig haben.
Kernideen
- ConvFinQA-Genauigkeit: 43,41 % vs. GPT-NeoX 30,06 %. Die größten Zuwächse gegenüber Baselines vergleichbarer Größe zeigten sich bei Aufgaben, die mehrstufige Schlussfolgerungen über in Konversationen eingebettete Finanztabellen erforderten – genau die Art von strukturierter Logik, mit der allgemeine Modelle, die auf weniger Finanzdaten trainiert wurden, Schwierigkeiten haben.
- FiQA-Sentiment: 75,07 % F1 vs. GPT-NeoX 50,59 %. Fast 25 Punkte höher bei der Finanz-Sentimentanalyse. Die Zuwächse bei Klassifizierungsaufgaben mit klarem Finanzvokabular waren am dramatischsten.
- Interne Benchmarks erzählten eine noch deutlichere Geschichte. Bei Bloombergs proprietärer Equity News Sentiment-Aufgabe erreichte BloombergGPT 79,63 % F1; GPT-NeoX erreichte 14,17 %. Diese internen Zahlen sind nicht überprüfbar, aber sie sind auch der entscheidende Punkt – Bloomberg hat das Modell für Aufgaben gebaut, die nur sie definieren können.
- NER war die auffällige Schwachstelle. Bei der Finanz-NER-Aufgabe (Eigennamenerkennung) erzielte BloombergGPT 60,82 % F1, knapp hinter den 60,98 % von GPT-NeoX – eine Erinnerung daran, dass nicht alle NLP-Aufgaben gleichermaßen vom Finanz-Vortraining profitieren und dass generative Modelle unabhängig von der Domäne Schwierigkeiten mit der strukturierten Extraktion von Textabschnitten haben.
- Der GPT-2-Tokenizer behandelte Zahlen nicht speziell. Eine Zahl wie 5.234 konnte auf unvorhersehbare Weise über Token hinweg aufgeteilt werden. Die Autoren wiesen dies als Problem für numerisches Denken aus, gingen es jedoch architektonisch nicht an – was für alles, was Ledger-Arithmetik betrifft, enorm wichtig ist.
- Instabilität beim Training war real. Bei den Schritten 115.500, 129.900 und 137.100 schoss die Gradientennorm in die Höhe, und das Team musste Checkpoints zurückrollen und die Lernrate senken. Der Anhang "Training Chronicles" des Papers ist diesbezüglich ungewöhnlich aufrichtig. Der Aufbau von Domänen-LLMs im großen Stil ist operativ schwieriger, als es die Theorie vermuten lässt.
Was Bestand hat – und was nicht
Das Kernergebnis – dass das Hinzufügen domänenspezifischer Daten die Leistung bei Finanzaufgaben im Vergleich zu gleich großen allgemeinen Modellen verbessert – ist gut belegt und nicht überraschend. Die interessante Frage ist, ob der Vorsprung die Kosten rechtfertigt.
Als GPT-4 veröffentlicht wurde, wiesen mehrere Forscher (darunter Ethan Mollick in einem viel zitierten Thread) darauf hin, dass GPT-4 BloombergGPT in fast jedem öffentlichen Finanz-Benchmark übertrifft, mit dem es verglichen wurde – obwohl GPT-4 keinen Zugang zu Bloombergs proprietären Daten hatte und kein spezifisches Finanz-Vortraining über das hinaus erhielt, was in seinem allgemeinen Trainingskorpus vorhanden war. Eine Studie von Yang et al. (arXiv:2305.05862) evaluierte ChatGPT und GPT-4 anhand von acht Finanz-NLP-Benchmarks und stellte fest, dass GPT-4 durchweg wettbewerbsfähig mit feingetunten finanzspezifischen Modellen oder diesen sogar überlegen war. Bloomberg gab Berichten zufolge rund 10 Mio. USD für den Trainingslauf aus. Die Lektion, die das Fachgebiet daraus zog: Skalierung schlägt Spezialisierung, wenn sich die technologische Grenze schnell genug verschiebt.
Diese Interpretation ist jedoch zu einfach. Die internen Benchmarks von Bloomberg – diejenigen, die Bloomberg-spezifische Terminologie und Dokumentformate betreffen, die GPT-4 nie gesehen hat – bleiben plausibel das stärkste Argument für das Modell. Man kann proprietäre Leistung nicht von außen bewerten. Der Vergleich mit öffentlichen Benchmarks ist nur ein Teiltest der eigentlichen These.
Was ich in dem Paper für wirklich unterbelichtet halte, ist das Tokenisierungsproblem. Finanzen sind ein Bereich, in dem exakte Zahlen zählen: 5.234,78 ist nicht ungefähr 5.235. Ein Tokenizer, der numerische Zeichenfolgen unvorhersehbar zerstückelt, ist ein strukturelles Risiko für jede quantitative Aufgabe, und die Autoren räumen dies ein, ohne es zu lösen. Dies ist keine unbedeutende Fußnote – es ist eine Ursache für die arithmetischen Fehler, die Sprachmodelle bei Finanzberechnungen plagen.
Warum dies für Finanz-KI wichtig ist
Für die Agenda von Bean Labs weist die BloombergGPT-Geschichte gleichzeitig in zwei Richtungen. Erstens kann domänenspezifisches Vortraining bei engen Klassifizierungsaufgaben – Sentiment, Headline-Tagging, NER – signifikant helfen, aber das sind nicht die schwierigen Probleme für autonome Buchhaltungsagenten. Die harten Probleme sind mehrstufige Schlussfolgerungen über Ledger-Einträge, sicheres Zurückschreiben und das Finden von Fehlern in arithmetischen Ketten. Modelle der GPT-4-Klasse bewältigen die einfachen Klassifizierungsaufgaben bereits gut genug.
Zweitens ist das Tokenisierungsproblem direkt relevant für Beancount-Agenten. Jeder Ledger-Eintrag beinhaltet Geldbeträge, Kontonummern und Daten. Wenn der Tokenizer des zugrunde liegenden Modells "1.234,56 USD" unvorhersehbar fragmentiert, arbeitet jeder Agent, der eine mehrstufige Abstimmung durchführt, gegen sein eigenes Substrat. Dies deutet darauf hin, dass Ansätze zur Tool-Nutzung – bei denen die Arithmetik an einen Python-Interpreter delegiert wird, anstatt sie in natürlicher Sprache durchzudenken (wie in PAL, das ich in LOG-009 behandelt habe) – robuster sind als das Vertrauen auf interne Modellabläufe, unabhängig davon, auf wie viel Finanztext das Modell trainiert wurde.
Die tiefergehende Lektion: Domänenspezifisches Vortraining ist dann am wertvollsten, wenn die nachgelagerten Aufgaben das Erkennen von spezialisiertem Vokabular und Dokumentstrukturen erfordern – nicht, wenn sie numerische Präzision erfordern. Für Beancount bedeutet dies, dass Investitionen in das Fine-Tuning wahrscheinlich eher auf das Befolgen von Anweisungen und die Tool-Nutzung abzielen sollten als auf reines Finanz-Sprachmodellierung.
Was man als Nächstes lesen sollte
- FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) – die Open-Source-Antwort auf BloombergGPT; verwendet LoRA-Fine-Tuning öffentlicher LLMs auf Finanzdaten für ~300 USD statt 10 Mio. USD; ein direkter Test der Wirtschaftlichkeit von Fine-Tuning gegenüber Vortraining.
- Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) – der systematische Vergleich, der zeigt, dass GPT-4 mit finanzspezifischen Modellen in öffentlichen Benchmarks gleichzieht oder diese schlägt; essenziell, um zu kalibrieren, was Domänen-Vortraining tatsächlich bringt.
- Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) – das Paper über rechenoptimales Scaling, das den Rahmen dafür bildet, warum GPT-4 BloombergGPT wahrscheinlich übertrifft; das Chinchilla-Follow-up (Hoffmann et al., arXiv:2203.15556) ist gleichermaßen relevant.
