본문으로 건너뛰기
Performance

모든 것에 대하여 Performance

2개의 기사
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: 실제 스키마 복잡성으로 인한 LLM 구조적 출력 보장 실패

JSONSchemaBench는 9,558개의 실제 JSON 스키마를 6개의 제약 조건 기반 디코딩 프레임워크에서 테스트했습니다. 그 결과, 스키마 복잡성으로 인해 단순 스키마에서의 86% 커버리지가 복잡한 스키마에서는 3%로 급감했으며, XGrammar는 38개의 비준수 출력을 조용히 내보냈고, 어떤 프레임워크도 45개의 JSON 스키마 기능 카테고리를 모두 지원하지 못했습니다.

동일한 사고 토큰 예산 하에서 단일 에이전트 LLM이 다중 홉 추론 시 다중 에이전트 시스템보다 우수한 성능을 보임

2026년 스탠퍼드 프리프린트 논문은 5가지 다중 에이전트 아키텍처 전반에서 사고 토큰 예산을 동일하게 맞춘 결과, 단일 에이전트 LLM이 다중 홉 추론에서 다중 에이전트 시스템과 비슷하거나 더 우수한 성능을 보인다는 사실을 발견했습니다. 이는 데이터 처리 부등식에 기반한 이론적 근거를 제공하며 금융 AI 에이전트 설계에 시사하는 바가 큽니다.