Преминете към основното съдържание
Performance

Всичко за Performance

2 статии
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM

JSONSchemaBench тества 9 558 реални JSON схеми срещу шест рамки за ограничено декодиране и установява, че сложността на схемите води до срив на покритието от 86% при прости схеми до 3% при сложни такива, като XGrammar мълчаливо генерира 38 несъответстващи изхода, а нито една рамка не покрива всички 45 категории функции на JSON Schema.

Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене

Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.