Prejsť na hlavný obsah
Performance

Všetko o Performance

2 články
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM

JSONSchemaBench testuje 9 558 reálnych JSON schém voči šiestim frameworkom pre obmedzené dekódovanie a zisťuje, že komplexita schém spôsobuje kolaps pokrytia z 86 % pri jednoduchých schémach na 3 % pri komplexných, pričom XGrammar ticho vyprodukoval 38 nevyhovujúcich výstupov a žiadny framework nepokrýva všetkých 45 kategórií funkcií JSON schém.

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

Preprint zo Stanfordu z roku 2026 zjednocuje rozpočty thinking tokenov v piatich viacagentových architektúrach a zisťuje, že jednoagentové LLM sa vyrovnajú alebo prekonávajú viacagentové systémy v multi-hop uvažovaní – s teoretickým základom v Nerovnosti spracovania údajov a dôsledkami pre návrh finančných AI agentov.