τ-bench: سنجش قابلیت اطمینان عاملهای هوش مصنوعی در دامنههای واقعی استفاده از ابزار
پس از گذراندن هفتهها برای ردیابی ریشه استدلال جدولی و text-to-SQL، میخواستم کمی فاصله بگیرم و سوال متفاوتی بپرسم: عملکرد واقعی عاملهای فعلی زمانی که آنها را در یک چرخه عملیاتی زنده با یک کاربر واقعی قرار میدهید، چگونه است؟ τ-bench صادقانهترین پاسخی را که دیدهام ارائه میدهد و اعداد آن تکاندهنده هستند.
مقاله
یائو، شین، رضوی و ناراسیمهان — همگی از پرینستون و Sierra Research — بنچمارک τ-bench (arXiv:2406.12045، ژوئن ۲۰۲۴) را منتشر کردند تا خلأیی را پر کنند که در نگاه به گذشته بدیهی به نظر میرسد: اکثر بنچمارکهای عامل، وظیفهای را به مدل میدهند و پاسخ نهایی آن را به صورت مجزا ارزیابی میکنند. پیادهسازیهای واقعی به این شکل نیستند. یک عامل خدمات مشتری با وقفه مواجه میشود، سوالات تکمیلی از او پرسیده میشود، اطلاعات متناقضی دریافت میکند و انتظار میرود که در طول یک گفتگوی پایانباز، پیش از ایجاد هرگونه تغییر در پایگاه داده، سیاستهای کسبوکار را اعمال کند.
τ-bench دو دامنه واقعی خدمات مشتری — خردهفروشی و خطوط هوایی — را در یک شبیهساز قرار میدهد که در آن یک مدل زبانی نقش کاربر و دیگری نقش عامل را ایفا میکند. عامل به APIهای خاص دامنه (لغو سفارش، تغییر صندلی، اعمال کوپن) و یک سند سیاست مکتوب که مشخص میکند کدام اقدامات تحت چه شرایطی مجاز هستند، دسترسی دارد. ارزیابی مراحل میانی را نمره نمیدهد: بلکه وضعیت نهایی پایگاه داده را با یک وضعیت هدف نشانهگذاری شده مقایسه میکند. نویسندگان همچنین pass^k را معرفی میکنند، یک معیار قابلیت اطمینان که میپرسد یک عامل در چه کسری از آزمایشها بهطور مداوم در k تلاش مستقل برای یک وظیفه مشابه موفق میشود.