مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخابگر برای کاهش طرحواره، تجزیهکننده برای شکستن سوال و اصلاحکننده برای تصحیح SQL مبتنی بر اجرا — استفاده میکند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیلها نشان میدهد که عا مل اصلاحکننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرسوجو در دفاتر کل Beancount دارد.
DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقهبندی پیچیدگی و تولید SQL تجزیه میکند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش میدهد — و همین استراتژی تجزیه مستقیماً بر رابطهای زبان طبیعی برای زبان پرسوجوی BQL در Beancount قابل انطباق است.
بنچمارک BIRD (NeurIPS 2023) مدلهای زبانی بزرگ را روی ۹۵ پایگاهداده واقعی آزمایش میکند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آنها به ۳۴.۸۸٪ دقت اجرا میرسد؛ شکافی ۲۰ واحدی که مستقیماً چالشهای ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف میکند.