Pular para o conteúdo principal

BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

O BloombergGPT surgiu em março de 2023 e imediatamente se tornou o ponto de referência para todas as conversas sobre LLMs de domínio específico em finanças. Estou lendo-o agora não porque seja atual — não é — mas porque a história do que aconteceu depois que ele foi lançado é pelo menos tão instrutiva quanto o que está no próprio artigo.

O artigo

2026-05-05-bloomberggpt-large-language-model-finance

Wu et al., da Bloomberg, treinaram um modelo de linguagem de 50 bilhões de parâmetros em um corpus de 569 bilhões de tokens dividido aproximadamente ao meio: 363 bilhões de tokens do FinPile, um conjunto de dados financeiros proprietário montado a partir dos arquivos da Bloomberg desde 2007, e 345 bilhões de tokens de conjuntos de dados públicos de propósito geral. O FinPile abrange artigos de notícias, registros, comunicados à imprensa, transcrições de teleconferências de resultados e páginas financeiras extraídas da web. O modelo em si segue uma arquitetura LM causal apenas de decodificador (estilo BLOOM, usando codificações posicionais ALiBi), treinado em 64 × 8 GPUs A100 de 40 GB ao longo de 139.200 etapas.

A alegação central é que o pré-treinamento de domínio misto — não apenas o ajuste fino (fine-tuning) — produz um modelo que "supera os modelos existentes em tarefas financeiras por margens significativas sem sacrificar o desempenho em benchmarks gerais de LLM". Esta é a hipótese fundamental da estratégia de LLM de domínio específico: você pode ter o melhor dos dois mundos.

Ideias-chave

  • Precisão no ConvFinQA: 43,41% vs GPT-NeoX 30,06%. Os maiores ganhos em relação a linhas de base de escala comparável apareceram em tarefas que exigem raciocínio de várias etapas sobre tabelas financeiras incorporadas em conversas — exatamente o tipo de raciocínio estruturado com o qual modelos gerais treinados em menos dados financeiros têm dificuldade.
  • Sentimento no FiQA: 75,07% F1 vs GPT-NeoX 50,59%. Quase 25 pontos a mais na análise de sentimento financeiro. Os ganhos em tarefas de classificação com vocabulário financeiro claro foram os mais dramáticos.
  • Benchmarks internos contaram uma história ainda mais forte. Na tarefa proprietária de Sentimento de Notícias de Ações da Bloomberg, o BloombergGPT atingiu 79,63% de F1; o GPT-NeoX atingiu 14,17%. Esses números internos não são verificáveis, mas também são o ponto central — a Bloomberg construiu o modelo para tarefas que só eles podem definir.
  • O NER foi o ponto fraco notável. Na tarefa de NER (Reconhecimento de Entidade Nomeada) financeiro, o BloombergGPT obteve 60,82% de F1, ligeiramente atrás dos 60,98% do GPT-NeoX — um lembrete de que nem todas as tarefas de NLP se beneficiam igualmente do pré-treinamento financeiro, e que modelos generativos lutam com a extração estruturada de spans independentemente do domínio.
  • O tokenizador do GPT-2 não tratou os números de forma especial. Um número como 5.234 poderia ser dividido entre tokens de maneiras imprevisíveis. Os autores sinalizaram isso como uma preocupação para o raciocínio numérico, mas não o abordaram arquitetonicamente — o que importa enormemente para qualquer coisa que envolva aritmética de livros contábeis (ledgers).
  • A instabilidade no treinamento foi real. Nas etapas 115.500, 129.900 e 137.100, a norma do gradiente disparou e a equipe teve que reverter checkpoints e reduzir a taxa de aprendizado. O apêndice "Training Chronicles" do artigo é excepcionalmente franco sobre isso. Construir LLMs de domínio em escala é operacionalmente mais difícil do que a teoria sugere.

O que se sustenta — e o que não se sustenta

A descoberta central — que adicionar dados específicos do domínio melhora o desempenho em tarefas financeiras em relação a modelos gerais de tamanho igual — é bem fundamentada e não surpreende. A questão interessante é se a margem justifica o custo.

Quando o GPT-4 foi lançado, vários pesquisadores (incluindo Ethan Mollick em um tópico amplamente citado) apontaram que o GPT-4 supera o BloombergGPT em quase todos os benchmarks financeiros públicos com os quais foi comparado — apesar do GPT-4 não ter acesso aos dados proprietários da Bloomberg e não ter recebido pré-treinamento específico para finanças além do que apareceu em seu corpus de treinamento geral. Um estudo de Yang et al. (arXiv:2305.05862) avaliou o ChatGPT e o GPT-4 em oito benchmarks de NLP financeiro e descobriu que o GPT-4 é consistentemente competitivo ou superior aos modelos específicos de finanças ajustados. A Bloomberg teria gasto cerca de US$ 10 milhões na execução do treinamento. A lição que o campo tirou disso: a escala vence a especialização quando a fronteira se move rápido o suficiente.

Essa interpretação é limpa demais, no entanto. Os benchmarks internos do BloombergGPT — aqueles que envolvem terminologia específica da Bloomberg e formatos de documentos que o GPT-4 nunca viu — permanecem plausivelmente como o argumento mais forte do modelo. Não se pode avaliar o desempenho proprietário do lado de fora. A comparação de benchmark público é um teste parcial da tese real.

O que considero genuinamente pouco examinado no artigo é o problema da tokenização. As finanças são um domínio onde os números exatos importam: 5.234,78 não é aproximadamente 5.235. Um tokenizador que fragmenta strings numéricas de forma imprevisível é um passivo estrutural para qualquer tarefa quantitativa, e os autores reconhecem isso sem resolvê-lo. Isso não é uma nota de rodapé menor — é a causa raiz das falhas aritméticas que assolam os modelos de linguagem em cálculos financeiros.

Por que isso importa para a IA em finanças

Para a agenda do Bean Labs, a história do BloombergGPT aponta em duas direções simultaneamente. Primeiro, o pré-treinamento específico do domínio pode ajudar significativamente em tarefas de classificação estreitas — sentimento, marcação de manchetes, NER — mas esses não são os problemas difíceis para agentes de contabilidade autônomos. Os problemas difíceis são o raciocínio de várias etapas sobre entradas de livro-razão, o registro seguro (write-back) e a detecção de erros em cadeias aritméticas. Modelos da classe GPT-4 já lidam bem o suficiente com as tarefas fáceis de classificação.

Segundo, a questão da tokenização é diretamente relevante para os agentes Beancount. Cada entrada de livro-razão envolve quantias monetárias, números de conta e datas. Se o tokenizador do modelo subjacente fragmenta "1.234,56 USD" de forma imprevisível, qualquer agente que faça reconciliação de várias etapas está trabalhando contra seu próprio substrato. Isso sugere que abordagens de uso de ferramentas — onde a aritmética é delegada a um intérprete Python em vez de ser processada via linguagem natural (como no PAL, que abordei no LOG-009) — são mais robustas do que confiar nos componentes internos do modelo, independentemente de quanto texto financeiro o modelo tenha sido treinado.

A lição mais profunda: o pré-treinamento de domínio específico é mais valioso quando as tarefas a jusante exigem o reconhecimento de vocabulário especializado e estrutura de documentos — não quando exigem precisão numérica. Para o Beancount, isso significa que o investimento em ajuste fino deve provavelmente visar o seguimento de instruções e o uso de ferramentas, em vez da modelagem bruta de linguagem financeira.

O que ler a seguir

  • FinGPT: Open-Source Financial Large Language Models (Yang et al., 2023, arXiv:2306.06031) — a resposta de código aberto ao BloombergGPT; usa ajuste fino LoRA de LLMs públicos em dados financeiros por aproximadamente US$ 300 em vez de US$ 10 milhões; um teste direto da economia do ajuste fino versus pré-treinamento.
  • Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? (Yang et al., 2023, arXiv:2305.05862) — a comparação sistemática que mostrou o GPT-4 igualando ou superando modelos específicos de finanças em benchmarks públicos; essencial para calibrar o quanto o pré-treinamento de domínio está realmente entregando.
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020, arXiv:2001.08361) — o artigo sobre escalonamento ideal de computação que contextualiza por que o GPT-4 provavelmente supera o BloombergGPT; o acompanhamento Chinchilla (Hoffmann et al., arXiv:2203.15556) é igualmente relevante.