Ir al contenido principal

InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La mayoría de las evaluaciones comparativas de IA en finanzas prueban si los LLM pueden responder preguntas sobre datos financieros. InvestorBench plantea una pregunta más difícil: ¿puede un agente de LLM ganar dinero? Es el primer benchmark que he visto que somete a 13 modelos base diferentes a tareas de trading reales (mediante backtesting) con acciones, criptomonedas y ETF, midiendo el rendimiento acumulado y el ratio de Sharpe en lugar de la precisión en preguntas y respuestas. Ese cambio de la comprensión a la toma de decisiones es el enfoque correcto para Bean Labs.

El artículo

investorbench-agente-llm-toma-de-decisiones-financieras

InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) introduce un benchmark y un marco de agentes complementario para evaluar los LLM en el trading financiero. La arquitectura del agente es modular: un Cerebro (el modelo base de LLM), una capa de Percepción que convierte los datos del mercado en texto y un sistema de Memoria por capas con tres ventanas de decaimiento: 14 días para noticias diarias, 90 días para informes trimestrales y 365 días para presentaciones anuales. En el momento de la decisión, el agente recupera información de las tres capas y razona hacia una acción de compra, venta o mantenimiento.

El benchmark cubre tres familias de tareas de un solo activo. El trading de acciones utiliza siete valores (MSFT, JNJ, TSLA, AAPL, etc.) probados desde octubre de 2020 hasta mayo de 2021. Las criptomonedas cubren Bitcoin y Ethereum desde abril hasta noviembre de 2023. El trading de ETF utiliza el conjunto de datos NIFTY de enero a septiembre de 2020. Cada tarea proporciona datos OHLCV, artículos de noticias con etiquetas de sentimiento y presentaciones ante la SEC o equivalentes. Las métricas principales son el rendimiento acumulado (CR) y el ratio de Sharpe (SR).

Ideas clave

  • El diseño de memoria por niveles (ventanas de decaimiento de 14/90/365 días) refleja cómo los analistas profesionales tratan realmente la información: la acción del precio diaria, las ganancias trimestrales y el contexto estratégico anual tienen pesos temporales diferentes.
  • El tamaño del modelo es el predictor más fuerte del rendimiento. Los modelos de código abierto de más de 67 mil millones de parámetros (67B) igualan a los modelos propietarios en el CR y SR de acciones, mientras que los modelos más pequeños quedan significativamente rezagados. Qwen2.5-72B encabeza la tabla de clasificación de acciones con un 46.15% de CR y un SR de 1.276, frente a una línea de base de compra y mantenimiento de 34.10% de CR / 0.732 de SR.
  • El ajuste fino específico de dominio es contraproducente en las acciones. Palmyra-Fin-70B —un modelo preentrenado para finanzas— obtuvo un promedio de −0.45% de CR y un SR de 0.031 en el trading de acciones, peor que cualquier modelo de propósito general probado. A Palmyra-Fin-70B le fue bien con los ETF (24.76% de CR, 1.152 de SR), lo que los autores atribuyen a que las tareas de ETF requieren un razonamiento a más largo plazo alineado con su entrenamiento.
  • Los modelos propietarios (GPT-4, GPT-4o, GPT-o1-preview) promediaron un 36.14% de CR y un SR de 0.82 en acciones, de forma fiable por encima de comprar y mantener, pero no de manera drástica. Su mayor ventaja se muestra en las criptomonedas, donde alcanzaron un 23.60% de CR en BTC frente al 21.82% de comprar y mantener, mientras que los modelos de código abierto promediaron un 14.14%.
  • El benchmark es de código abierto e incluye herramientas de evaluación, una contribución prácticamente útil dada la dificultad de reproducir experimentos de trading.

Lo que se sostiene y lo que no

La arquitectura de memoria por capas es la elección de diseño más fundamentada del artículo, y el hallazgo empírico de que supera a la recuperación puramente basada en similitud es plausible y útil. La correlación entre tamaño y rendimiento también es un resultado claro.

La debilidad principal es que los períodos de prueba son backtests históricos cortos, no trading en vivo. El período de acciones (octubre 2020 – mayo 2021) coincide con uno de los mercados alcistas más inusuales que se registran: el estímulo post-COVID, el frenesí de las meme stocks y las tasas cercanas a cero impulsaron una apreciación general de las acciones. La estrategia de comprar y mantener ganó un 34.10% en unos siete meses en una cesta de siete acciones. No se puede determinar a partir de los datos proporcionados si las mejoras del agente de LLM por encima de esa cifra reflejan un alfa genuino o simplemente una toma de posiciones más agresiva en un mercado alcista. Del mismo modo, el período de ETF abarca el desplome y la recuperación de COVID, un régimen tan anormal que cualquier modelo que decidiera ponerse a la defensiva en marzo de 2020 parecería visionario.

La anomalía de Palmyra-Fin-70B —catastrófica en acciones, fuerte en ETF— no se explica satisfactoriamente. Si el ajuste fino de dominio reorienta un modelo hacia horizontes temporales más largos, eso debería reflejarse también en los resultados de las acciones. El hecho de que no ocurra sugiere que el resultado puede ser ruido en una ventana de backtesting corta en lugar de un hallazgo fundamentado.

Tampoco hay una comparación con las líneas de base algorítmicas tradicionales (momentum, reversión a la media, modelos de factores). Usar solo comprar y mantener como línea de base pasiva pone el listón muy bajo. Si un simple cruce de medias móviles supera a comprar y mantener durante estos períodos —lo cual ocurre a menudo en mercados con tendencia— la comparación con el agente resulta mucho menos impresionante.

Por último, el benchmark solo prueba decisiones de un solo activo. La gestión de carteras real requiere el dimensionamiento de posiciones correlacionadas, el reequilibrio y la agregación de riesgos que las tareas de un solo activo no capturan.

Por qué esto es importante para la IA financiera

La arquitectura de memoria por niveles se traduce directamente a Beancount. Un agente de libro mayor necesita razonar a diferentes escalas temporales simultáneamente: lo que ocurrió en la sesión de importación de hoy (superficial), lo que revela un trimestre de transacciones sobre un presupuesto (intermedio) y lo que dicen los patrones plurianuales sobre la salud de la cuenta (profundo). La estratificación de 14/90/365 días de InvestorBench proporciona una plantilla de diseño concreta que vale la pena tomar prestada, incluso si el contexto del trading difiere de la contabilidad.

El hallazgo de Palmyra-Fin-70B también conlleva una advertencia para los esfuerzos de ajuste fino de Beancount. Un modelo entrenado extensamente en texto financiero no toma automáticamente mejores decisiones como agente; la brecha entre la fluidez en el lenguaje financiero y la competencia en el razonamiento financiero es real. Si Bean Labs alguna vez ajusta un modelo con la sintaxis de Beancount y las reglas contables, la evaluación del agente debe probar la calidad de la decisión, no solo el formato de salida.

La ausencia de una evaluación de seguridad de escritura en el benchmark es un hueco claro que Bean Labs puede llenar. Los agentes de InvestorBench solo pueden perder dinero; los agentes de Beancount pueden corromper un libro mayor. El marco de evaluación necesita una dimensión de irreversibilidad que los benchmarks de trading no tienen motivos para incluir.

Qué leer a continuación

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743): la arquitectura de memoria por capas que InvestorBench extiende; leer el diseño original aclara lo que InvestorBench realmente aporta.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024): explora el trading multiagente basado en debates, un contraste directo con el resultado de agente único del registro de la semana pasada.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209): según se informa, evalúa a los agentes con datos del mercado en vivo con visión de futuro en lugar de backtests históricos; aborda la preocupación por el sesgo de supervivencia que planteé aquí.