Pular para o conteúdo principal

InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

A maioria dos benchmarks de IA financeira testa se os LLMs conseguem responder a perguntas sobre dados financeiros. O InvestorBench faz uma pergunta mais difícil: um agente de LLM consegue ganhar dinheiro? É o primeiro benchmark que vi que submete 13 modelos de backbone diferentes a tarefas reais de negociação (backtested) em ações, cripto e ETFs, medindo o retorno acumulado e o índice de Sharpe em vez da precisão de QA. Essa mudança da compreensão para a tomada de decisão é a abordagem correta para o Bean Labs.

O artigo

2026-06-02-investorbench-llm-agent-financial-decision-making

O InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) apresenta um benchmark e um framework de agente acompanhante para avaliar LLMs em negociações financeiras. A arquitetura do agente é modular — um Cérebro (o backbone do LLM), uma camada de Percepção que converte dados de mercado em texto e um sistema de Memória em camadas com três janelas de decaimento: 14 dias para notícias diárias, 90 dias para relatórios trimestrais e 365 dias para arquivamentos anuais. No momento da decisão, o agente recupera informações de todas as três camadas e raciocina em direção a uma ação de compra/venda/manutenção (buy/sell/hold).

O benchmark cobre três famílias de tarefas de ativos únicos. A negociação de ações utiliza sete ações ordinárias (MSFT, JNJ, TSLA, AAPL, etc.) testadas de outubro de 2020 a maio de 2021. Cripto cobre Bitcoin e Ethereum de abril a novembro de 2023. A negociação de ETFs usa o conjunto de dados NIFTY de janeiro a setembro de 2020. Cada tarefa fornece dados OHLCV, artigos de notícias com rótulos de sentimento e arquivamentos da SEC ou equivalentes. As métricas primárias são o retorno acumulado (CR) e o índice de Sharpe (SR).

Ideias principais

  • O design de memória em camadas (janelas de decaimento de 14/90/365 dias) reflete como os analistas profissionais realmente tratam a informação: a ação do preço diário, os ganhos trimestrais e o contexto estratégico anual carregam pesos temporais diferentes.
  • O tamanho do modelo é o preditor mais forte de desempenho. Modelos de código aberto com mais de 67 bilhões de parâmetros igualam os modelos proprietários em CR e SR de ações, enquanto modelos menores ficam significativamente atrás. O Qwen2.5-72B lidera o ranking de ações com 46,15% de CR e SR de 1,276 contra uma linha de base de compra e manutenção (buy-and-hold) de 34,10% de CR / 0,732 de SR.
  • O ajuste fino específico do domínio produz resultados inversos em ações. O Palmyra-Fin-70B — um modelo pré-treinado em finanças — obteve uma média de -0,45% de CR e SR de 0,031 na negociação de ações, pior do que todos os modelos de propósito geral testados. O Palmyra-Fin-70B teve um bom desempenho em ETFs (24,76% de CR, 1,152 de SR), o que os autores atribuem ao fato de as tarefas de ETF exigirem um raciocínio de longo prazo alinhado com o seu treinamento.
  • Os modelos proprietários (GPT-4, GPT-4o, GPT-o1-preview) tiveram uma média de 36,14% de CR e SR de 0,82 em ações, confiavelmente acima do buy-and-hold, mas não de forma dramática. Sua maior vantagem aparece em cripto, onde atingiram 23,60% de CR em BTC contra 21,82% para buy-and-hold, enquanto os modelos de código aberto tiveram uma média de 14,14%.
  • O benchmark é de código aberto e inclui ferramentas de avaliação — uma contribuição praticamente útil, dada a dificuldade de reproduzir experimentos de negociação.

O que se sustenta — e o que não se sustenta

A arquitetura de memória em camadas é a escolha de design com base em princípios mais sólida do artigo, e a descoberta empírica de que ela supera a recuperação baseada puramente em similaridade é plausível e útil. A correlação entre tamanho e desempenho também é um resultado claro.

A principal fraqueza é que os períodos de teste são backtests históricos curtos, não negociações em tempo real. O período das ações (outubro de 2020 a maio de 2021) coincide com um dos mercados de alta (bull markets) mais incomuns já registrados: estímulos pós-COVID, a frenesi das meme stocks e taxas de juros próximas de zero impulsionaram uma valorização ampla das ações. O buy-and-hold rendeu 34,10% em cerca de sete meses em uma cesta de sete ações. Não se pode determinar, a partir dos dados fornecidos, se as melhorias dos agentes de LLM sobre esse número refletem um alfa genuíno ou apenas uma tomada de posição mais agressiva em um mercado em ascensão. Da mesma forma, o período dos ETFs abrange a queda e a recuperação da COVID — um regime tão anormal que qualquer modelo que por acaso tenha se tornado defensivo em março de 2020 pareceria presciente.

A anomalia do Palmyra-Fin-70B — catastrófica em ações, forte em ETFs — não é explicada de forma satisfatória. Se o ajuste fino de domínio realinha um modelo para horizontes de tempo mais longos, isso também deveria aparecer nos resultados das ações. O fato de não aparecer sugere que o resultado pode ser ruído em uma janela curta de backtesting, em vez de uma descoberta fundamentada.

Também não há comparação com linhas de base algorítmicas tradicionais (momentum, reversão à média, modelos de fatores). Usar apenas o buy-and-hold como linha de base passiva estabelece um nível baixo. Se um simples cruzamento de média móvel vencer o buy-and-hold nesses períodos — o que frequentemente acontece em mercados com tendência — a comparação dos agentes torna-se muito menos impressionante.

Finalmente, o benchmark testa apenas decisões de ativos únicos. A gestão de portfólio real exige dimensionamento de posição correlacionado, rebalanceamento e agregação de risco que as tarefas de ativos únicos não capturam.

Por que isso importa para a IA nas finanças

A arquitetura de memória em camadas se traduz diretamente para o Beancount. Um agente de livro-razão (ledger) precisa raciocinar em diferentes escalas temporais simultaneamente: o que aconteceu na sessão de importação de hoje (superficial), o que um trimestre de transações revela sobre um orçamento (intermediário) e o que padrões plurianuais dizem sobre a saúde da conta (profundo). A estratificação de 14/90/365 dias do InvestorBench fornece um modelo de design concreto que vale a pena aproveitar, mesmo que o contexto de negociação seja diferente da contabilidade.

A descoberta do Palmyra-Fin-70B também traz um alerta para os esforços de ajuste fino do Beancount. Um modelo treinado extensivamente em textos financeiros não toma automaticamente melhores decisões de agente — a lacuna entre a fluência na linguagem financeira e a competência no raciocínio financeiro é real. Se o Bean Labs algum dia realizar o ajuste fino de um modelo na sintaxe do Beancount e nas regras contábeis, a avaliação do agente deve testar a qualidade da decisão, não apenas o formato da saída.

A ausência de avaliação de segurança de gravação (write-back safety) no benchmark é uma lacuna clara para o Bean Labs preencher. Agentes do InvestorBench só podem perder dinheiro; agentes do Beancount podem corromper um livro-razão. O framework de avaliação precisa de uma dimensão de irreversibilidade que os benchmarks de negociação não têm motivo para incluir.

O que ler a seguir

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — a arquitetura de memória em camadas que o InvestorBench estende; ler o design original esclarece o que o InvestorBench realmente adiciona.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — explora a negociação multiagente baseada em debate, um contraste direto com o resultado de agente único do log da semana passada.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — supostamente avalia agentes em dados de mercado em tempo real e prospectivos, em vez de backtests históricos; aborda a preocupação com o viés de sobrevivência que levantei aqui.