Ir al contenido principal

BloombergGPT y los límites de los LLM especializados en finanzas

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

BloombergGPT aterrizó en marzo de 2023 e inmediatamente se convirtió en el punto de referencia para cada conversación sobre los LLM especializados en finanzas. Lo estoy leyendo ahora no porque sea actual —no lo es— sino porque la historia de lo que sucedió después de su lanzamiento es al menos tan instructiva como lo que se describe en el propio artículo.

El artículo

2026-05-05-bloomberggpt-large-language-model-finance

Wu et al. de Bloomberg entrenaron un modelo de lenguaje de 50 mil millones de parámetros en un corpus de 569 mil millones de tokens dividido aproximadamente a la mitad: 363 mil millones de tokens de FinPile, un conjunto de datos financieros patentado ensamblado a partir de los archivos de Bloomberg que se remontan a 2007, y 345 mil millones de tokens de conjuntos de datos públicos de propósito general. FinPile cubre artículos de noticias, presentaciones, comunicados de prensa, transcripciones de conferencias de resultados y páginas financieras extraídas de la web. El modelo en sí sigue una arquitectura de LM causal solo de decodificador (estilo BLOOM, utilizando codificaciones posicionales ALiBi), entrenado en 64 × 8 GPUs A100 de 40GB durante 139,200 pasos.

La afirmación central es que el preentrenamiento de dominio mixto —no solo el ajuste fino— produce un modelo que "supera a los modelos existentes en tareas financieras por márgenes significativos sin sacrificar el rendimiento en las evaluaciones generales de LLM". Esta es la hipótesis fundacional de la estrategia de LLM especializados en un dominio: puedes tenerlo todo.

Ideas clave

  • Precisión en ConvFinQA: 43.41% frente al 30.06% de GPT-NeoX. Las mayores ganancias sobre las líneas base de escala comparable aparecieron en tareas que requerían un razonamiento de múltiples pasos sobre tablas financieras integradas en conversaciones, exactamente el tipo de razonamiento estructurado con el que los modelos generales entrenados con menos datos financieros tienen dificultades.
  • Sentimiento en FiQA: 75.07% F1 frente al 50.59% de GPT-NeoX. Casi 25 puntos más en el análisis de sentimiento financiero. Las ganancias en tareas de clasificación con vocabulario financiero claro fueron las más dramáticas.
  • Las evaluaciones internas contaron una historia aún más cruda. En la tarea patentada de Sentimiento de Noticias de Acciones de Bloomberg, BloombergGPT alcanzó un 79.63% F1; GPT-NeoX alcanzó el 14.17%. Esos números internos son inverificables, pero también son la razón de ser: Bloomberg construyó el modelo para tareas que solo ellos pueden definir.
  • El NER fue el punto débil notable. En la tarea de NER financiero (Reconocimiento de Entidades Nombradas), BloombergGPT obtuvo un 60.82% F1, ligeramente por detrás del 60.98% de GPT-NeoX, un recordatorio de que no todas las tareas de PLN se benefician por igual del preentrenamiento financiero, y que los modelos generativos luchan con la extracción estructurada de fragmentos independientemente del dominio.
  • El tokenizador de GPT-2 no trató los números de manera especial. Un número como 5,234 podría dividirse en tokens de formas impredecibles. Los autores señalaron esto como una preocupación para el razonamiento numérico pero no lo abordaron arquitectónicamente, lo cual importa enormemente para cualquier cosa que involucre aritmética en libros contables.
  • La inestabilidad del entrenamiento fue real. En los pasos 115,500, 129,900 y 137,100, la norma del gradiente se disparó y el equipo tuvo que revertir los puntos de control y reducir la tasa de aprendizaje. El apéndice de Crónicas de Entrenamiento del artículo es inusualmente sincero al respecto. Construir LLM de dominio a escala es operativamente más difícil de lo que sugiere el resumen.

Qué se mantiene y qué no

El hallazgo principal —que añadir datos específicos del dominio mejora el rendimiento en tareas financieras en comparación con modelos generales de igual tamaño— está bien respaldado y no es sorprendente. La pregunta interesante es si el margen justifica el costo.

Cuando se lanzó GPT-4, varios investigadores (incluyendo a Ethan Mollick en un hilo ampliamente citado) señalaron que GPT-4 supera a BloombergGPT en casi todas las evaluaciones financieras públicas contra las que fue comparado, a pesar de que GPT-4 no tiene acceso a los datos patentados de Bloomberg y no recibió ningún preentrenamiento específico en finanzas más allá de lo que aparecía en su corpus de entrenamiento general. Un estudio de Yang et al. (arXiv:2305.05862) evaluó ChatGPT y GPT-4 en ocho evaluaciones de PLN financiero y encontró que GPT-4 era consistentemente competitivo o superior a los modelos especializados en finanzas con ajuste fino. Según se informa, Bloomberg gastó alrededor de 10 millones de dólares en la ejecución del entrenamiento. La lección que el campo aprendió de esto: la escala supera a la especialización cuando la frontera avanza lo suficientemente rápido.

Sin embargo, esa interpretación es demasiado simplista. Las evaluaciones internas de BloombergGPT —las que involucran terminología y formatos de documentos específicos de Bloomberg que GPT-4 nunca ha visto— siguen siendo, plausiblemente, el argumento más fuerte del modelo. No se puede evaluar el rendimiento patentado desde el exterior. La comparación de evaluaciones públicas es una prueba parcial de la tesis real.

Lo que encuentro genuinamente poco examinado en el artículo es el problema de la tokenización. Las finanzas son un dominio donde los números exactos importan: 5,234.78 no es aproximadamente 5,235. Un tokenizador que tritura cadenas numéricas de forma impredecible es una desventaja estructural para cualquier tarea cuantitativa, y los autores lo reconocen sin resolverlo. Esto no es una nota al pie menor: es una causa raíz de los fallos aritméticos que plagan a los modelos de lenguaje en los cálculos financieros.

Por qué esto importa para la IA en finanzas

Para la agenda de Bean Labs, la historia de BloombergGPT apunta en dos direcciones simultáneamente. Primero, el preentrenamiento específico del dominio puede ayudar significativamente en tareas de clasificación estrechas —sentimiento, etiquetado de titulares, NER—, pero esos no son los problemas difíciles para los agentes contables autónomos. Los problemas difíciles son el razonamiento de múltiples pasos sobre las entradas del libro mayor, la escritura segura de datos y la detección de errores en cadenas aritméticas. Los modelos de la clase GPT-4 ya manejan suficientemente bien las tareas fáciles de clasificación.

Segundo, el problema de la tokenización es directamente relevante para los agentes de Beancount. Cada entrada del libro mayor involucra montos monetarios, números de cuenta y fechas. Si el tokenizador del modelo subyacente fragmenta "1,234.56 USD" de forma impredecible, cualquier agente que realice una conciliación de múltiples pasos está trabajando contra su propio sustrato. Esto sugiere que los enfoques de uso de herramientas —donde la aritmética se delega a un intérprete de Python en lugar de razonarse a través del lenguaje natural (como en PAL, que cubrí en LOG-009)— son más robustos que confiar en los componentes internos del modelo, independientemente de cuánto texto financiero se haya utilizado para entrenar el modelo.

La lección más profunda: el preentrenamiento específico del dominio es más valioso cuando las tareas posteriores requieren reconocer vocabulario especializado y la estructura de los documentos, no cuando requieren precisión numérica. Para Beancount, esto significa que la inversión en el ajuste fino probablemente debería dirigirse al seguimiento de instrucciones y al uso de herramientas en lugar del modelado de lenguaje financiero puro.

Qué leer a continuación

  • FinGPT: Modelos de lenguaje extensos financieros de código abierto (Yang et al., 2023, arXiv:2306.06031): la respuesta de código abierto a BloombergGPT; utiliza el ajuste fino LoRA de LLM públicos en datos financieros por unos 300 dólares en lugar de 10 millones; una prueba directa de la economía del ajuste fino frente al preentrenamiento.
  • ¿Son ChatGPT y GPT-4 solucionadores de propósito general para el análisis de texto financiero? (Yang et al., 2023, arXiv:2305.05862): la comparación sistemática que mostró a GPT-4 igualando o superando a los modelos específicos de finanzas en evaluaciones públicas; esencial para calibrar cuánto está aportando realmente el preentrenamiento de dominio.
  • Leyes de escala para modelos de lenguaje neuronales (Kaplan et al., 2020, arXiv:2001.08361): el artículo sobre el escalado óptimo de cómputo que enmarca por qué es probable que GPT-4 supere a BloombergGPT; el seguimiento de Chinchilla (Hoffmann et al., arXiv:2203.15556) es igualmente relevante.