پرش به محتوای اصلی
Performance

همه چیز درباره Performance

2 مقاله
Efficiency, speed, and resource usage benchmarks for financial AI systems

JSONSchemaBench: پیچیدگی شمای دنیای واقعی، تضمین‌های خروجی ساختاریافته LLM را می‌شکند

بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش می‌کند و درمی‌یابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده می‌شود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر می‌کند و هیچ چارچوبی تمام ۴۵ دسته‌بندی ویژگی JSON Schema را پوشش نمی‌دهد.

برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر

پیش‌نویس ۲۰۲۶ استنفورد با یکسان‌سازی بودجه توکن‌های تفکر در پنج معماری چندعاملی نشان می‌دهد که مدل‌های زبانی بزرگ تک‌عاملی در استدلال چندگامی با سیستم‌های چندعاملی برابری کرده یا از آن‌ها پیشی می‌گیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عامل‌های هوش مصنوعی در حوزه مالی دارد.