Salta al contingut principal
Performance

Tot Sobre Performance

2 articles
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

JSONSchemaBench avalua 9.558 esquemes JSON del món real amb sis entorns de descodificació restringida i conclou que la complexitat dels esquemes provoca un col·lapse de la cobertura del 86% en esquemes simples al 3% en els complexos; XGrammar emet silenciosament 38 sortides no conformes i cap entorn cobreix les 45 categories de funcions de JSON Schema.

Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament

Un preprint de Stanford de 2026 iguala els pressupostos de tòquens de pensament en cinc arquitectures multi-agent i descobreix que els LLM d'agent únic igualen o superen els sistemes multi-agent en el raonament de múltiples salts, amb base teòrica en la Desigualtat de Processament de Dades i implicacions per al disseny d'agents d'IA financera.