EnterpriseArena soumet 11 LLM à une simulation de directeur financier sur 132 mois, suivant la survie, la valorisation finale et les taux de clôture comptable. Seul Qwen3.5-9B survit à 80 % des tests ; GPT-5.4 et DeepSeek-V3.1 tombent à 0 %. Les experts humains atteignent 100 % de survie avec une valeur finale 5 fois supérieure. Le goulot d'étranglement critique : les LLM ignorent le rapprochement du grand livre 80 % du temps, agissant sur un état financier obsolète.
InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.
Un article Spotlight de NeurIPS 2024 analyse par ablation trois méthodes de prévision de séries temporelles basées sur les LLM — OneFitsAll, Time-LLM et CALF — et constate que la suppression du modèle de langage améliore la précision dans la plupart des cas, avec une accélération de l'entraînement allant jusqu'à 1 383×. Pour les applications d'IA financière comme la prédiction de solde Beancount, les modèles légers dédiés surpassent systématiquement les LLM détournés de leur usage initial.
FinBen évalue 15 LLM à travers 36 ensembles de données financières lors de NeurIPS 2024, révélant que GPT-4 atteint une correspondance exacte de 0,63 sur le QA numérique et 0,54 sur la prévision des mouvements boursiers — proche du hasard. Voici ce que ces chiffres signifient pour la création d'un agent comptable fiable sur un grand livre Beancount.