Doorgaan naar hoofdinhoud
Performance

Alles Over Performance

2 artikelen
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: Complexiteit van real-world schema's doorbreekt garanties voor gestructureerde LLM-output

JSONSchemaBench test 9.558 real-world JSON-schema's tegen zes beperkte decoderingsframeworks en ontdekt dat schemacomplexiteit ervoor zorgt dat de dekking instort van 86% bij eenvoudige schema's naar 3% bij complexe, waarbij XGrammar stilletjes 38 niet-conforme outputs genereert en geen enkel framework alle 45 JSON-schema functiecategorieën dekt.

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

Een Stanford-preprint uit 2026 egaliseert de budgetten voor denk-tokens over vijf multi-agent-architecturen en stelt vast dat single-agent LLM's multi-agent-systemen evenaren of verslaan bij multi-hop redeneren — met een theoretische onderbouwing in de Dataverwerkingsongelijkheid en implicaties voor het ontwerp van financiële AI-agents.