JSONSchemaBench:真实世界的模式复杂度打破了大语言模型结构化输出的保证
JSONSchemaBench 对 9,558 个真实世界的 JSON 模式进行了针对六种约束解码框架的测试,发现模式复杂度导致覆盖率从简单模式的 86% 崩塌至复杂模式的 3%,其中 XGrammar 静默输出了 38 个不合规结果,且没有任何框架能够涵盖所有 45 个 JSON Schema 特征类别。
JSONSchemaBench 对 9,558 个真实世界的 JSON 模式进行了针对六种约束解码框架的测试,发现模式复杂度导致覆盖率从简单模式的 86% 崩塌至复杂模式的 3%,其中 XGrammar 静默输出了 38 个不合规结果,且没有任何框架能够涵盖所有 45 个 JSON Schema 特征类别。
2026 年斯坦福大学的一篇预印本论文通过统一五种多智能体架构的思考 Token 预算发现,在多跳推理任务中,单智能体大模型表现与多智能体系统相当甚至更优。该研究基于数据处理不等式提供了理论依据,并探讨了其对金融 AI 智能体设计的启示。