FinMCP-Bench évalue six modèles LLM sur 613 tâches réelles d'utilisation d'outils financiers s'appuyant sur 65 serveurs MCP — le meilleur modèle obtient un score de 3,08 % de correspondance exacte sur les tâches multi-tours, révélant un effondrement des performances par 20 entre les scénarios à outil unique et multi-tours.
FinTrace évalue 13 LLM sur 800 trajectoires de tâches financières annotées par des experts selon 9 métriques, révélant que les modèles de pointe maîtrisent la sélection d'outils (F1 ~0,9) mais n'obtiennent que 3,23/5 sur l'utilisation de l'information — l'étape où les agents raisonnent sur les données retournées par les outils.
FinToolBench associe 760 outils API financiers en direct à 295 requêtes exécutables pour évaluer les agents LLM sur des tâches financières réelles — révélant que le taux d'invocation conservateur de 22,7 % de GPT-4o produit une qualité de réponse supérieure (CSS 0,670) par rapport au TIR agressif de 87,1 % de Qwen3-8B, tandis que l'inadéquation de l'intention dépasse 50 % pour tous les modèles testés.
Bloomberg a entraîné un LLM de 50 milliards de paramètres sur 569 milliards de tokens de données financières et a surpassé les modèles généraux sur les benchmarks de sentiment et de raisonnement sur tableaux — puis GPT-4 l'a égalé sans aucun pré-entraînement spécifique à la finance. Ce que l'expérience à 10 millions de dollars révèle sur les compromis du pré-entraînement par domaine, la tokenisation des nombres et pourquoi l'utilisation d'outils est plus fiable que les composants internes du modèle pour les agents comptables.