JSONSchemaBench: 現実世界のスキーマの複雑さがLLMの構造化出力の保証を破壊する
JSONSchemaBenchは、9,558個の現実世界のJSONスキーマを6つの制約付きデコードフレームワークに対してテストし、スキーマの複雑さによってカバレッジが単純なスキーマでの86%から複雑なものでは3%にまで崩壊することを発見しました。XGrammarは38個の非準拠出力をサイレントに生成し、すべての45のJSONスキーマ機能カテゴリをカバーするフレームワークは存在しませんでした。
JSONSchemaBenchは、9,558個の現実世界のJSONスキーマを6つの制約付きデコードフレームワークに対してテストし、スキーマの複雑さによってカバレッジが単純なスキーマでの86%から複雑なものでは3%にまで崩壊することを発見しました。XGrammarは38個の非準拠出力をサイレントに生成し、すべての45のJSONスキーマ機能カテゴリをカバーするフレームワークは存在しませんでした。
2026年のスタンフォード大学のプレプリントでは、5つのマルチエージェントアーキテクチャ間で思考トークン予算を均等化し、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムと同等かそれ以上の性能を発揮することを発見しました。これは情報処理不等式に基づいた理論的根拠を持ち、金融AIエージェントの設計にも影響を与えます。