2 поста с тегом "Performance"

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM

JSONSchemaBench тестирует 9 558 реальных схем JSON на шести фреймворках ограниченного декодирования и обнаруживает, что сложность схем приводит к падению покрытия с 86% на простых схемах до 3% на сложных, при этом XGrammar незаметно выдает 38 некорректных ответов, и ни один фреймворк не охватывает все 45 категорий функций JSON Schema.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.

Все о Performance

JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация