Aller au contenu principal
Performance

Tout sur Performance

2 articles
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench : la complexité des schémas réels brise les garanties de sortie structurée des LLM

JSONSchemaBench teste 9 558 schémas JSON réels par rapport à six frameworks de décodage contraint et constate que la complexité des schémas fait s'effondrer la couverture de 86 % sur les schémas simples à 3 % sur les schémas complexes, XGrammar émettant silencieusement 38 sorties non conformes et aucun framework ne couvrant l'intégralité des 45 catégories de fonctionnalités de JSON Schema.

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.