본문으로 건너뛰기

BloombergGPT와 금융 도메인 특화 LLM의 한계

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

2023년 3월에 출시된 BloombergGPT는 즉시 금융 분야 도메인 특화 LLM에 관한 모든 논의의 기준점이 되었습니다. 제가 지금 이 논문을 읽는 이유는 이 내용이 최신이기 때문이 아닙니다(사실 그렇지 않습니다). 오히려 출시 이후에 벌어진 일들이 논문에 적힌 내용만큼이나 시사하는 바가 크기 때문입니다.

논문 내용

2026-05-05-bloomberggpt-large-language-model-finance

Bloomberg의 Wu 등은 약 절반으로 나뉜 5,690억 토큰의 말뭉치로 500억 개의 파라미터를 가진 언어 모델을 학습시켰습니다. 여기에는 2007년까지 거슬러 올라가는 Bloomberg의 아카이브에서 수집한 독점 금융 데이터셋인 FinPile에서 추출한 3,630억 토큰과 범용 공공 데이터셋에서 추출한 3,450억 토큰이 포함됩니다. FinPile은 뉴스 기사, 공시 서류, 보도 자료, 실적 발표 녹취록 및 웹에서 스크랩한 금융 페이지를 다룹니다. 모델 자체는 디코더 전용 인과적 LM 아키텍처(BLOOM 스타일, ALiBi 위치 인코딩 사용)를 따르며, 64 × 8 A100 40GB GPU에서 139,200단계에 걸쳐 학습되었습니다.

핵심 주장은 단순한 미세 조정(fine-tuning)이 아닌 혼합 도메인 사전 학습(pretraining)이 "일반적인 LLM 벤치마크의 성능을 희생하지 않으면서도 금융 작업에서 기존 모델보다 상당한 차이로 우수한 성능을 발휘하는" 모델을 만든다는 것입니다. 이것이 바로 도메인 특화 LLM 전략의 근간이 되는 가설입니다. 즉, 성능과 범용성이라는 두 마리 토끼를 모두 잡을 수 있다는 것입니다.

핵심 아이디어

  • ConvFinQA 정확도: 43.41% vs GPT-NeoX 30.06%. 유사한 규모의 베이스라인 모델에 비해 가장 큰 성과는 대화 속에 포함된 금융 데이터 표에 대해 다단계 추론이 필요한 작업에서 나타났습니다. 이는 금융 데이터 학습이 부족한 일반 모델이 어려워하는 정형화된 추론 영역입니다.
  • FiQA 감성 분석: 75.07% F1 vs GPT-NeoX 50.59%. 금융 감성 분석에서 약 25점 더 높은 점수를 기록했습니다. 명확한 금융 어휘를 가진 분류 작업에서의 성과가 가장 극적이었습니다.
  • 내부 벤치마크는 더욱 뚜렷한 차이를 보여주었습니다. Bloomberg의 독점 자산 뉴스 감성 분석(Equity News Sentiment) 작업에서 BloombergGPT는 79.63% F1을 기록한 반면, GPT-NeoX는 14.17%에 그쳤습니다. 이러한 내부 수치는 외부에서 검증할 수 없지만, 이것이 바로 핵심입니다. Bloomberg는 오직 자신들만이 정의할 수 있는 작업을 위해 이 모델을 구축한 것입니다.
  • 개체명 인식(NER)은 눈에 띄는 약점이었습니다. 금융 NER 작업에서 BloombergGPT는 60.82% F1을 기록하여 GPT-NeoX의 60.98%보다 약간 뒤처졌습니다. 이는 모든 NLP 작업이 금융 사전 학습의 혜택을 동일하게 받는 것은 아니며, 생성형 모델이 도메인에 관계없이 구조화된 범위 추출(span extraction)에 어려움을 겪는다는 사실을 상기시켜 줍니다.
  • GPT-2 토크나이저는 숫자를 특별하게 처리하지 않았습니다. 5,234와 같은 숫자가 예측 불가능한 방식으로 토큰으로 나뉠 수 있었습니다. 저자들은 이를 숫자 추론의 우려 사항으로 꼽았지만 아키텍처적으로 해결하지는 않았습니다. 이는 장부 산술(ledger arithmetic)이 포함된 모든 작업에서 매우 중요한 문제입니다.
  • 학습 불안정성은 실재했습니다. 115,500, 129,900, 137,100단계에서 그래디언트 노름(gradient norm)이 급증하여 팀은 체크포인트를 되돌리고 학습률을 낮춰야 했습니다. 논문의 '학습 기록(Training Chronicles)' 부록은 이에 대해 이례적으로 솔직하게 서술하고 있습니다. 도메인 LLM을 대규모로 구축하는 것은 추상적인 이론보다 운영 측면에서 훨씬 더 어렵습니다.

유효한 점과 그렇지 않은 점

도메인 특화 데이터를 추가하면 동일한 크기의 일반 모델에 비해 금융 작업 성능이 향상된다는 핵심 발견은 충분히 뒷받침되며 놀라운 일도 아닙니다. 흥미로운 질문은 그 성능 차이가 비용을 정당화하느냐는 것입니다.

GPT-4가 출시되었을 때, 여러 연구자(널리 인용된 스레드의 Ethan Mollick 포함)는 GPT-4가 BloombergGPT와 비교된 거의 모든 공개 금융 벤치마크에서 BloombergGPT를 압도한다는 점을 지적했습니다. GPT-4는 Bloomberg의 독점 데이터에 접근할 수 없었음에도 불구하고, 일반 학습 말뭉치에 포함된 내용만으로 금융 특화 사전 학습 없이 이러한 결과를 냈습니다. Yang 등의 연구(arXiv:2305.05862)는 8개의 금융 NLP 벤치마크에서 ChatGPT와 GPT-4를 평가했으며, GPT-4가 미세 조정된 금융 특화 모델과 대등하거나 더 우수하다는 사실을 발견했습니다. Bloomberg는 학습에 약 1,000만 달러를 지출한 것으로 알려졌습니다. 업계가 여기서 얻은 교훈은 기술의 경계가 충분히 빠르게 확장될 때는 '규모(scale)가 전문성(specialization)을 압도한다'는 것이었습니다.

하지만 이러한 해석은 너무 단순합니다. BloombergGPT의 내부 벤치마크, 즉 GPT-4가 본 적 없는 Bloomberg 특유의 용어와 문서 형식이 포함된 작업들은 여전히 이 모델의 가장 강력한 존재 이유로 남아 있을 가능성이 큽니다. 외부에서는 독점적 성능을 평가할 수 없습니다. 공개 벤치마크 비교는 실제 가설에 대한 부분적인 테스트일 뿐입니다.

제가 이 논문에서 정말로 충분히 다뤄지지 않았다고 생각하는 부분은 토크나이저 문제입니다. 금융은 정확한 숫자가 중요한 도메인입니다. 5,234.78은 대략 5,235가 아닙니다. 숫자 문자열을 예측 불가능하게 쪼개는 토크나이저는 정량적 작업에서 구조적인 결함이 되며, 저자들도 이를 해결하지 못한 채 인정하고 있습니다. 이는 단순한 각주 수준의 문제가 아니라, 금융 계산에서 언어 모델을 괴롭히는 산술 실패의 근본 원인입니다.

금융 AI에 시사하는 바

Bean Labs의 아젠다에 있어 BloombergGPT의 사례는 동시에 두 가지 방향을 가리킵니다. 첫째, 도메인 특화 사전 학습은 감성 분석, 헤드라인 태깅, NER과 같은 좁은 분류 작업에서 큰 도움이 될 수 있지만, 이는 자율 회계 에이전트가 해결해야 할 어려운 문제가 아닙니다. 진짜 어려운 문제는 장부 항목에 대한 다단계 추론, 안전한 쓰기 작업(write-back), 그리고 산술 체인의 오류 포착입니다. GPT-4급 모델은 이미 쉬운 분류 작업을 충분히 잘 수행합니다.

둘째, 토크나이저 문제는 Beancount 에이전트와 직접적인 관련이 있습니다. 모든 장부 항목에는 금액, 계정 번호, 날짜가 포함됩니다. 기본 모델의 토크나이저가 "1,234.56 USD"를 예측 불가능하게 분절한다면, 다단계 대조(reconciliation)를 수행하는 모든 에이전트는 자신의 기반 구조와 싸우는 셈이 됩니다. 이는 모델이 얼마나 많은 금융 텍스트를 학습했는지와 관계없이, 산술 연산을 자연어 추론에 맡기기보다 Python 인터프리터에 위임하는 '도구 사용(tool-use)' 접근 방식(LOG-009에서 다룬 PAL과 같은 방식)이 훨씬 더 견고하다는 것을 시사합니다.

더 깊은 교훈은 다음과 같습니다. 도메인 특화 사전 학습은 다운스트림 작업에서 전문 용어와 문서 구조를 인식해야 할 때 가장 가치가 있으며, 수치적 정밀도가 필요할 때는 그렇지 않습니다. Beancount의 경우, 이는 미세 조정 투자가 원시 금융 언어 모델링보다는 지시 이행(instruction following)과 도구 사용에 집중되어야 함을 의미합니다.

추가로 읽어볼 만한 자료

  • FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) — BloombergGPT에 대한 오픈 소스 진영의 응답입니다. 1,000만 달러 대신 약 300달러를 들여 공공 LLM에 LoRA 미세 조정을 적용했습니다. 미세 조정과 사전 학습의 경제성을 직접적으로 테스트합니다.
  • Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — GPT-4가 공개 벤치마크에서 금융 특화 모델과 대등하거나 압도하는 성능을 보여준 체계적인 비교 연구입니다. 도메인 사전 학습이 실제로 무엇을 가져다주는지 가늠하는 데 필수적입니다.
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — 왜 GPT-4가 BloombergGPT보다 우수한 성능을 낼 가능성이 높은지 설명하는 연산 최적화 스케일링 법칙 논문입니다. 후속 연구인 Chinchilla 논문(Hoffmann et al., arXiv:2203.15556)도 함께 볼 가치가 있습니다.