Перейти до основного вмісту
Performance

Все про Performance

2 статті
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: Складність реальних схем порушує гарантії структурованого виводу LLM

JSONSchemaBench тестує 9 558 реальних схем JSON на шести фреймворках обмеженого декодування і виявляє, що складність схем призводить до падіння покриття з 86% на простих схемах до 3% на складних, причому XGrammar непомітно видає 38 невідповідних результатів, а жоден фреймворк не охоплює всі 45 категорій функцій JSON Schema.

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.