Перейти к контенту
Performance

Все о Performance

2 статей
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM

JSONSchemaBench тестирует 9 558 реальных схем JSON на шести фреймворках ограниченного декодирования и обнаруживает, что сложность схем приводит к падению покрытия с 86% на простых схемах до 3% на сложных, при этом XGrammar незаметно выдает 38 некорректных ответов, и ни один фреймворк не охватывает все 45 категорий функций JSON Schema.

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.