بنچمارک BIRD: شکاف پایگاهداده واقعی در مدلهای زبانی بزرگ Text-to-SQL
بنچمارک BIRD (برگزیده NeurIPS 2023) مقالهای است که هر بار کسی ادعا میکند GPT-4 میتواند «یک پایگاهداده را با زبان انگلیسی ساده پرسوجو کند»، قصد دارم آن را دوباره بخوانم. این مقاله یک سوال اساسی میپرسد: آیا مدلهای زبانی بزرگ (LLM) واقعاً میتوانند بهعنوان یک رابط پایگاهداده روی پایگاهدادههای واقعی عمل کنند، نه فقط روی طرحوارههای (schemas) ساده و آکادمیک؟ پاسخ به این سوال به شکلی هشداردهنده است که تقریباً مستقیماً با چالشهایی که یک لایه پرسوجوی زبان طبیعی برای دفتر کل Beancount با آن روبروست، مطابقت دارد.
درباره مقاله
مقاله «آیا LLM همین حالا میتواند به عنوان رابط پایگاهداده عمل کند؟ بنچمارکی بزرگ برای سیستمهای تبدیل متن به SQL مبتنی بر پایگاهدادههای مقیاسبالا» توسط جینیانگ لی و تیمی بزرگ از آکادمی DAMO، دانشگاه HKU، UIUC و دیگران، بنچمارک BIRD را معرفی میکند: ۱۲,۷۵۱ جفت سوال-SQL روی ۹۵ پایگاهداده واقعی به حجم کل ۳۳.۴ گیگابایت در ۳۷ حوزه تخصصی. نکته اصلی همین مقیاس است. Spider و WikiSQL، دو بنچمارکی که پیش از این بر تحقیقات متن-به-SQL تسلط داشتند، از پایگاهدادههای کوچک و تمیزی با حداکثر چند صد ردیف استفاده میکردند. BIRD از پایگاهدادههای استخراج شده از نهادهای واقعی استفاده میکند — سوابق مالی، گزارشهای سمشناسی، مجموعهدادههای دولتی — جایی که مقادیر «کثیف» هستند، معنای ستونها نیاز به دانش دامنه دارد و کارایی پرسوجو واقعاً اهمیت پیدا میکند. این مقاله همچنین دو معیار را معرفی میکند: دقت اجرا (EX)، که بررسی میکند آیا نتیجه SQL با پاسخ مرجع مطابقت دارد یا خیر، و امتیاز کارایی معتبر (VES)، که پرسوجوهای صحیح اما کند را جریمه میکند.
ایدههای کلیدی
- مدل GPT-4 در صورت ارائه «شواهد دانش خارجی»، تنها به ۵۴.۸۹٪ دقت اجرا در مجموعه تست دست مییابد. بدون این شواهد، دقت آن به ۳۴.۸۸٪ کاهش مییابد — شکافی ۲۰ واحدی که نشان میدهد مدل تا چه حد به سرنخهای ارائه شده متکی است تا دانش عمومی خود.
- عملکرد انسانی در مجموعه توسعه ۹۲.۹۶٪ است، که حتی پس از ارائه بافت دامنه به GPT-4، همچنان یک شکاف ۳۸ واحدی باقی میماند.
- دانش خارجی به صورت یک «جمله شواهد» برای هر سوال ارائه میشود (مثلاً: "account.type = 'OWNER' یعنی دارنده حساب مالک اصلی است"). مدلهایی که نمیتوانند خودشان این بافت را بازیابی یا استنباط کنند، عملاً از همان ابتدا فلج هستند.
- حوزه مالی، که بیشترین ارتباط را با Beancount دارد، بالاترین نرخ نویز برچسبگذاری را داراست: یک بررسی تکمیلی نشان داد که تقریباً ۴۹٪ از نقاط داده در حوزه مالی حاوی نوعی خطا هستند — غلطهای املایی، سوالات مبهم یا پرسوجوهای SQL مرجع نادرست.
- جدول امتیازات (leaderboard) از زمان انتشار تاکنون تغییرات زیادی کرده است. تا سال ۲۰۲۶، سیستم پیشر و (AskData + GPT-4o) در مجموعه تست به ۸۱.۹۵٪ رسیده است، در حالی که عملکرد انسانی همچنان در حدود ۹۲.۹۶٪ است؛ اما این شکاف عمدتاً از طریق خطلولههای چندمرحلهای پیچیده بسته شده است، نه قدرت خام مدل.
چه چیزی پابرجاست — و چه چیزی نه
مشارکت اصلی مقاله همچنان معتبر است: بنچمارکهای سبک Spider با استفاده از طرحوارههای پاکسازیشده، دشواری تبدیل متن به SQL را واقعاً کمتر از حد واقعی نشان میدادند. اصرار BIRD بر مقادیر واقعی پایگاهداده و دانش خارجی، حالتهای شکستی را آشکار میکند که هرگز در دادههای تمیز نشان داده نمیشوند، و نوسان ۲۰ واحدی ناشی از افزودن شواهد دانش، یافتهای تکرارپذیر و مهم است.
اما این بنچمارک دارای نقصی در طراحی است که در کارهای بعدی خودِ تیم هم به آن اعتراف شده است. شواهد دانش خارجی برای هر پرسوجو توسط برچسبگذاران متخصص به صورت دستی نوشته شده است. این یک سناریوی استقرار واقعگرایانه نیست. یک عامل تبدیل زبان طبیعی به SQL واقعی، برای هر سوال یک سرنخ از پیش نوشته شده دریافت نمیکند؛ بلکه باید خودش بافت مرتبط با دامنه را بازیابی یا استنباط کند. مقاله SEED (۲۰۲۵) نشان میدهد که شواهد تولید شده به صورت خودکار میتواند در برخی تنظیمات با شواهد دستی برابری کرده یا از آنها پیشی بگیرد، که این موضوع فرض ضمنی BIRD مبنی بر اینکه گلوگاه اصلی «دانش» سختترین بخش است را تضعیف میکند.
بررسی نویز مخربتر است. بیست و دو پرسوجوی SQL مرجع در مجموعهداده کاملاً اشتباه هستند. وقتی اینها اصلاح میشوند، رتبهبندی مدلها تغییر میکند: GPT-3.5 در حالت zero-shot از DIN-SQL و MAC-SQL (که برای شکست دادن GPT-3.5 در بنچمارک اصلاحنشده طراحی شده بودند) پیشی میگیرد. این یک زنگ خطر است. بنچمارکی که رتبهبندیهایش با پاکسازی دادهها معکوس میشود، به همان اندازه که درباره توانایی مدل به ما میآموزد، درباره خطاهای برچسبگذاری نیز به ما درس میدهد. به خصوص نرخ نویز ۴۹ درصدی در حوزه مالی، نتایج خاص این دامنه را غیرقابل اعتماد میکند.
همچنین مسئله ظریفتری در مورد VES وجود دارد. پاداش دادن به کارایی پرسوجو یک هدف منطقی در دنیای واقعی است، اما برای اینکه یک بنچمارک بتواند بر اساس کارایی آموزش داده و ارزیابی شود، شما به یک «حقیقت پایه» (ground truth) درباره معنای «کارا بودن» برای یک موتور پایگاهداده و توزیع داده خاص نیاز دارید. VES در اینجا جواب میدهد چون BIRD محیط اجرا را کنترل میکند. این شرایط برای یک عامل Beancount که bean-query را روی دفتر کل شخصی کاربر در سختافزارهای ناهمگون اجرا میکند، صادق نخواهد بود.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
زبان پرسوجوی Beancount که BQL نام دارد (از طریق CLI bean-query و کتابخانه beanquery در دسترس است)، از نظر ساختاری به SQL نزدیک است: از SELECT ،WHERE ،GROUP BY ، توابع تجمیعی و Join در جداول داخلی posting و balance پشتیبانی میکند. یک رابط زبان طبیعی که سوالات کاربر را به BQL ترجمه میکند، طبیعیترین راه ورود برای کاربران غیر فنی است و یافتههای BIRD مستقیماً این چالش را چارچوببندی میکنند.
مشکل دانش خارجی در BIRD به وضوح در Beancount نیز وجود دارد. کاربری ممکن است بپرسد «سال گذشته چقدر برای هزینههای پزشکی خرج کردم؟» و عامل هوشمند باید بداند که هزینههای پزشکی این کاربر بسته به نحوه سازماندهی حسابهایش، در Expenses:Health:* ی ا Expenses:Medical قرار دارد. این نگاشت شخصی است و در هیچ مجموعه داده آموزشی وجود ندارد. یافته BIRD مبنی بر اینکه GPT-4 بدون شواهد ۲۰ امتیاز از دست میدهد، نشان میدهد که هر عامل تولید BQL به یک مرحله بازیابی (retrieval) نیاز دارد که ساختار درختی حسابهای خودِ کاربر را یاد بگیرد — در واقع یک پایگاه دانش اختصاصی برای هر کاربر.
مشکل دادههای کثیف نیز مستقیماً قابل تعمیم است. تراکنشهای بانکی وارد شده اغلب دارای نامهای فروشنده ناهماهنگ، آثار ناشی از OCR و رمزگذاریهای مخلوط هستند. BIRD هزینه این موارد را در صحت SQL کمیسازی میکند و این عدد به قدری بزرگ هست که پیشپردازش دادهها را به جای یک موضوع جانبی، به یک اولویت اصلی تبدیل کند.
آنچه BIRD پوشش نمیدهد: ساختارهای خاص دفتر کل مانند اعتبارسنجی موجودی (balance assertions)، دستورات pad یا ثبت تراکنشهای چندارزی، معادلی در SQL استاندارد ندارند، بنابراین هر عامل BQL با لایهای از پیچیدگی روبرو خواهد شد که BIRD آن را اندازهگیری نمیکند. این بنچمارک یک حد پایین مفید است، نه سقف توانمندی.
برای مطالعه بیشتر
- Spider 2.0: ارزیابی مدلهای زبانی در گردشکارهای متن-به-SQL سازمانی واقعی (arXiv:2502.04306، ارائه شفاهی ICLR 2025) — BIRD را به محیطهای سازمانی با پایگاهدادههای ابری و گردشکارهای چندفایلی گسترش میدهد؛ گام بعدی طبیعی برای درک شکافهای استقرار در دنیای واقعی.
- SEED: ارتقای عملکرد و کاربردپذیری عملی متن-به-SQL از طریق تولید خودکار شواهد (arXiv:2506.07423) — مستقیماً با یک خطلوله خودکار، فرض شواهد دستنویس BIRD را مورد خطاب قرار میدهد.
- DIN-SQL: یادگیری درونبافتی تجزیهشده برای متن-به-SQL با خوداصلاحگری (arXiv:2304.11015, NeurIPS 2023) — یکی از برترین مدلهای پایه BIRD؛ نشان میدهد که چگونه تجزیه یک پرسوجوی پیچیده SQL به زیرمسائل باعث بهبود دقت میشود، تکنیکی که مستقیماً در پرسوجوهای چندمرحلهای BQL روی دفتر کل Beancount کاربرد دارد.
