Aller au contenu principal

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

La plupart des benchmarks d'IA financière testent si les LLM peuvent répondre à des questions sur des données financières. InvestorBench pose une question plus difficile : un agent LLM peut-il gagner de l'argent ? C'est le premier benchmark que j'ai vu qui soumet 13 modèles de base différents à des tâches de trading réelles (backtestées) sur des actions, des cryptomonnaies et des ETF, en mesurant le rendement cumulé et le ratio de Sharpe plutôt que la précision des réponses aux questions. Ce passage de la compréhension à la prise de décision est l'approche appropriée pour Bean Labs.

L'article

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) introduit un benchmark et un framework d'agent associé pour évaluer les LLM sur le trading financier. L'architecture de l'agent est modulaire — un Cerveau (le modèle de base LLM), une couche de Perception qui convertit les données de marché en texte, et un système de Mémoire stratifié avec trois fenêtres de décroissance : 14 jours pour les actualités quotidiennes, 90 jours pour les rapports trimestriels et 365 jours pour les rapports annuels. Au moment de la décision, l'agent effectue une recherche à travers ces trois couches et raisonne pour aboutir à une action d'achat, de vente ou de conservation (hold).

Le benchmark couvre trois familles de tâches sur actif unique. Le trading d'actions utilise sept titres (MSFT, JNJ, TSLA, AAPL, etc.) testés d'octobre 2020 à mai 2021. La cryptomonnaie couvre le Bitcoin et l'Ethereum d'avril à novembre 2023. Le trading d'ETF utilise le jeu de données NIFTY de janvier à septembre 2020. Chaque tâche fournit des données OHLCV, des articles d'actualité avec des étiquettes de sentiment, et des documents déposés à la SEC ou équivalents. Les mesures primaires sont le rendement cumulé (RC) et le ratio de Sharpe (RS).

Idées clés

  • La conception de la mémoire hiérarchisée (fenêtres de décroissance de 14/90/365 jours) reflète la manière dont les analystes professionnels traitent réellement l'information : l'évolution quotidienne des prix, les résultats trimestriels et le contexte stratégique annuel ont des poids temporels différents.
  • La taille du modèle est le plus fort prédicteur de performance. Les modèles open-source de plus de 67 milliards de paramètres égalent les modèles propriétaires sur le RC et le RS des actions, tandis que les modèles plus petits sont nettement à la traîne. Qwen2.5-72B arrive en tête du classement des actions avec un RC de 46,15 % et un RS de 1,276, contre une référence "buy-and-hold" (acheter et conserver) de 34,10 % de RC / 0,732 de RS.
  • L'ajustement spécifique au domaine (fine-tuning) se retourne contre les actions. Palmyra-Fin-70B — un modèle pré-entraîné pour la finance — a obtenu une moyenne de −0,45 % de RC et un RS de 0,031 sur le trading d'actions, soit un résultat inférieur à tous les modèles polyvalents testés. Palmyra-Fin-70B s'est bien comporté sur les ETF (24,76 % de RC, 1,152 de RS), ce que les auteurs attribuent au fait que les tâches d'ETF nécessitent un raisonnement à plus long terme aligné sur son entraînement.
  • Les modèles propriétaires (GPT-4, GPT-4o, GPT-o1-preview) ont affiché une moyenne de 36,14 % de RC et un RS de 0,82 sur les actions, se situant de manière fiable au-dessus du "buy-and-hold" mais sans écart spectaculaire. Leur avantage est plus marqué dans les cryptomonnaies, où ils ont atteint 23,60 % de RC sur le BTC contre 21,82 % pour le "buy-and-hold", alors que les modèles open-source plafonnaient à 14,14 %.
  • Le benchmark est open-source et inclut des outils d'évaluation — une contribution pratique utile étant donné la difficulté de reproduire des expériences de trading.

Ce qui tient la route — et ce qui ne tient pas

L'architecture de mémoire stratifiée est le choix de conception le plus rigoureux de l'article, et la conclusion empirique selon laquelle elle surpasse la recherche purement basée sur la similarité est plausible et utile. La corrélation entre taille et performance est également un résultat net.

La principale faiblesse réside dans le fait que les périodes de test sont de courts backtests historiques, et non du trading en direct. La période boursière (octobre 2020 – mai 2021) coïncide avec l'un des marchés haussiers les plus inhabituels de l'histoire : les stimuli post-COVID, la frénésie des "meme stocks" et des taux proches de zéro ont entraîné une appréciation généralisée des actions. La stratégie "buy-and-hold" a rapporté 34,10 % en environ sept mois sur un panier de sept actions. Il est impossible de déterminer à partir des données fournies si les améliorations des agents LLM par rapport à ce chiffre reflètent un véritable alpha ou simplement une prise de position plus agressive dans un marché haussier. De même, la période des ETF couvre le krach du COVID et la reprise — un régime si anormal que tout modèle ayant adopté une position défensive en mars 2020 paraîtrait prescient.

L'anomalie Palmyra-Fin-70B — catastrophique sur les actions, forte sur les ETF — n'est pas expliquée de manière satisfaisante. Si l'ajustement au domaine réaligne un modèle vers des horizons temporels plus longs, cela devrait également se voir dans les résultats des actions. Le fait que ce ne soit pas le cas suggère que le résultat pourrait être un bruit dans une fenêtre de backtesting courte plutôt qu'une conclusion de principe.

Il n'y a pas non plus de comparaison avec les références algorithmiques traditionnelles (momentum, retour à la moyenne, modèles factoriels). Utiliser uniquement le "buy-and-hold" comme référence passive place la barre assez bas. Si un simple croisement de moyennes mobiles bat le "buy-and-hold" sur ces périodes — ce qui est souvent le cas dans les marchés à tendance — la comparaison avec l'agent devient beaucoup moins impressionnante.

Enfin, le benchmark ne teste que des décisions sur un actif unique. La gestion de portefeuille réelle nécessite un dimensionnement des positions corrélées, un rééquilibrage et une agrégation des risques que les tâches sur actif unique ne capturent pas.

Pourquoi cela compte pour l'IA financière

L'architecture de mémoire hiérarchisée se transpose directement à Beancount. Un agent de grand livre doit raisonner simultanément à différentes échelles temporelles : ce qui s'est passé dans la session d'importation d'aujourd'hui (superficiel), ce qu'un trimestre de transactions révèle sur un budget (intermédiaire), et ce que les schémas pluriannuels disent sur la santé des comptes (profond). La stratification 14/90/365 jours d'InvestorBench fournit un modèle de conception concret qu'il vaut la peine d'emprunter, même si le contexte du trading diffère de la comptabilité.

La découverte concernant Palmyra-Fin-70B constitue également un avertissement pour les efforts d'ajustement (fine-tuning) de Beancount. Un modèle entraîné intensivement sur des textes financiers ne prend pas automatiquement de meilleures décisions d'agent — l'écart entre la fluidité du langage financier et la compétence de raisonnement financier est réel. Si Bean Labs ajuste un jour un modèle sur la syntaxe et les règles comptables de Beancount, l'évaluation de l'agent devra tester la qualité des décisions, et pas seulement le format de sortie.

L'absence d'évaluation de la sécurité d'écriture dans le benchmark est une lacune que Bean Labs peut combler. Les agents d'InvestorBench ne peuvent que perdre de l'argent ; les agents Beancount peuvent corrompre un grand livre. Le framework d'évaluation doit inclure une dimension d'irréversibilité que les benchmarks de trading n'ont aucune raison d'inclure.

Que lire ensuite

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — l'architecture de mémoire stratifiée qu'InvestorBench étend ; lire la conception originale clarifie ce qu'InvestorBench apporte réellement.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — explore le trading multi-agents basé sur le débat, un contraste direct avec le résultat mono-agent du journal de la semaine dernière.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — évaluerait apparemment les agents sur des données de marché en direct prospectives plutôt que sur des backtests historiques ; répond à l'inquiétude concernant le biais de survie que j'ai soulevée ici.