Aller au contenu principal
Fintech

Tout sur Fintech

4 articles
Financial technology research, platforms, and infrastructure for modern accounting systems

FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP

FinMCP-Bench évalue six modèles LLM sur 613 tâches réelles d'utilisation d'outils financiers s'appuyant sur 65 serveurs MCP — le meilleur modèle obtient un score de 3,08 % de correspondance exacte sur les tâches multi-tours, révélant un effondrement des performances par 20 entre les scénarios à outil unique et multi-tours.

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

FinTrace évalue 13 LLM sur 800 trajectoires de tâches financières annotées par des experts selon 9 métriques, révélant que les modèles de pointe maîtrisent la sélection d'outils (F1 ~0,9) mais n'obtiennent que 3,23/5 sur l'utilisation de l'information — l'étape où les agents raisonnent sur les données retournées par les outils.

FinToolBench : Évaluer les agents LLM sur l'utilisation d'outils financiers en conditions réelles

FinToolBench associe 760 outils API financiers en direct à 295 requêtes exécutables pour évaluer les agents LLM sur des tâches financières réelles — révélant que le taux d'invocation conservateur de 22,7 % de GPT-4o produit une qualité de réponse supérieure (CSS 0,670) par rapport au TIR agressif de 87,1 % de Qwen3-8B, tandis que l'inadéquation de l'intention dépasse 50 % pour tous les modèles testés.

BloombergGPT et les limites des LLM spécialisés dans la finance

Bloomberg a entraîné un LLM de 50 milliards de paramètres sur 569 milliards de tokens de données financières et a surpassé les modèles généraux sur les benchmarks de sentiment et de raisonnement sur tableaux — puis GPT-4 l'a égalé sans aucun pré-entraînement spécifique à la finance. Ce que l'expérience à 10 millions de dollars révèle sur les compromis du pré-entraînement par domaine, la tokenisation des nombres et pourquoi l'utilisation d'outils est plus fiable que les composants internes du modèle pour les agents comptables.