WebArena: بنچمارک ۸۱۲-تسک که آنچه را که ایجنتهای وب واقعاً میتوانند و نمیتوانند انجام دهند اندازهگیری میکند
بنچمارک ۸۱۲-تسک WebArena سلف مستقیم WorkArena است که دیروز در مورد آن نوشتم. خواندن پشت سر هم آنها یک تفاوت کلیدی را روشن میکند: WorkArena کارهای دانشی سازمانی را در یک پلتفرم (ServiceNow) اندازهگیری میکند، در حالی که WebArena کفِ توانایی عمومی ایجنتهای وب را در نرمافزارهای متنباز و واقعی تعیین میکند. من میخواهم این کف را دقیقاً درک کنم، قبل از اینکه به ایجنتهای Beancount فکر کنم که در نهایت در محیطهای مرورگر کار خواهند کرد.
مقاله
ژو و همکاران (ICLR 2024, arXiv:2307.13854) پلتفرم WebArena را معرفی کردند، یک بنچمارک تکرارپذیر از ۸۱۲ تسک در چهار وبسایت خودمیزبانی (self-hosted): یک فروشگاه تجارت الکترونیک Magento، یک انجمن اجتماعی Postmill، یک نمونه GitLab، و یک پورتال ادمین CMS Magento، که با یک آینه از OpenStreetMap و نسخهای آفلاین از ویکیپدیا تکمیل شده است. بر خلاف تسکهای اسباببازی و ساختگی MiniWoB++، هر سایت WebArena نرمافزارهای متنباز واقعی را با مقیاس معتبر اجرا میکند: تقریباً ۹۰,۰۰۰ محصول، ۹۵ سابردیت با بیش از ۱۲۷,۰۰۰ پست، و ۳۰۰ مخزن گیت در میان ۱,۰۰۰ حساب توسعهدهنده. تسکها سه دسته را شامل میشوند — جستجوی اطلاعات، پیمایش سایت، و تغییرات محتوا/پیکربندی — و بر اساس درستی عملکردی ارزیابی میشوند: اینکه آیا نتیجه مورد نظر در پایگاه داده ظاهر میشود یا با یک پاسخ دقیق/تقریبی مطابقت دارد، نه اینکه آیا ایجنت توالی عملیات مورد انتظار را دنبال کرده است یا خیر.
ایدههای کلیدی
- GPT-4 به ۱۴.۴۱٪ میرسد؛ انسانها به ۷۸.۲۴٪ میرسند. شکاف ۶۳.۸ واحد درصد است. امتیاز GPT-3.5 برابر با ۸.۷۵٪ و خط پایه Google Text-Bison-001 تنها ۵.۰۵٪ است. پرامپتنویسی زنجیره افکار (Chain-of-thought) حدود ۲.۳ امتیاز برای GPT-4 اضافه میکند — که مفید است اما تحولآفرین نیست.
- شایعترین شکست، عدم امکان کاذب (False Impossibility) است. GPT-4 به اشتباه تقریباً ۵۴.۹٪ از تسکهای قابل دستیابی (۴۲۸ از ۸۱۲ تسک) را غیرممکن برچسبگذاری کرد و به جای تلاش برای انجام آنها، [N/A] را برگرداند. این حالت شکست غالب است، نه توالیهای عملیاتی نویزدار یا خطاهای ابزار.
- درستی عملکردی، نه بازپخش مسیر (Trajectory Replay). ارزیابی چهار نوع شواهد را بررسی میکند: مطابقت دقیق، بررسی کلمات کلیدی که باید شامل شوند، مطابقت تقریبی مبتنی بر LLM، و اعتبارسنجی برنامهنویسی شده از طریق کوئریهای پایگاه داده یا جاوا اسکریپت. این باعث میشود معیار در برابر بازنویسیها مقاوم باشد اما همچنان در برابر مشخصات مبهم تسک آسیبپذیر است.
- خودمیزبانی کانتینری امکان تکرارپذیری را فراهم میکند. هر چهار سایت به عنوان کانتینرهای Docker عرضه میشوند، چیزی که بنچمارکهای بعدی (WorkArena، OSWorld) از آن تقلید کردند. شما میتوانید وضعیت را ریست کنید و شرایط شروع یکسان را تضمین کنید، کاری که با استخراج زنده وب (live web scraping) غیرممکن است.
- قالبهای تسک از حفظ کردن کورکورانه جلوگیری میکنند. ۲۴۱ قالب، ۸۱۲ تسک نمونهسازی شده (۳.۳ واریانت برای هر کدام) ایجاد میکنند، که تا حدی کمک میکند اما مانع از آن نمیشود که یک مدل مصمم، الگوهای قالب را به جای اصول پیمایش وب یاد بگیرد.
- پیچیدگی واقعی DOM چندین مرتبه بزرگتر از MiniWoB++ است. یک صفحه معمولی WebArena به هزاران توکن تبدیل میشود؛ کارهای مرتبط گزارش میدهند که درختهای DOM برای نماهای پورتال پیچیده از ۱۰۰,۰۰۰ توکن فراتر میروند.
چه چیزی پابرجا میماند — و چه چیزی نه
روششناسی اصلی درست است: نرمافزار واقعی، ارزیابی مبتنی بر نتیجه، و محیطهای تکرارپذیر دقیقا ً مسیر صحیح هستند. عدد ۱۴.۴۱٪ در بازتولیدهای مستقل پایدار بوده است و طبقهبندی شکست (عدم امکان کاذب، رفتارهای حلقوی، امتناع ترسو) توسط چندین مقاله بعدی تایید شده است.
با این حال، محدودیتها واقعی هستند. اول، ۸۱۲ تسک مشتق شده از ۲۴۱ قالب به این معنی است که بنچمارک محدود است و به طور سیستماتیک قابل پوشش است؛ ایجنتی که الگوهای قالب را حفظ کند میتواند بدون تعمیمدهی، دچار بیشبرازش (overfit) شود. پروژه WebArena Verified (۲۰۲۴–۲۰۲۵) چکهای ارزیابی ناهماهنگ را کشف و اصلاح کرد، به این معنی که بخشی از رقم اولیه ۱۴.۴۱٪ ممکن است بازتابدهنده نویز ارزیابی باشد تا توانایی خالص. دوم، چهار نوع وبسایت — تجارت الکترونیک، انجمن، میزبانی کد، CMS — محتمل هستند اما نمونهای اصولی از کل وب نیستند. هیچ نرمافزار سازمانی (SaaS)، هیچ پورتال دولتی پر از فرم، و هیچ رابط بانکی وجود ندارد. سوم، بنچمارک به طور کامل ایمنی و قابلیت اطمینان را نادیده میگیرد: ایجنتی که در «حذف این پست» موفق میشود، همان امتیازی را میگیرد که چه پست درست را حذف کند و چه ده پست دیگر را. ST-WebAgentBench (۲۰۲۴) دقیقاً برای رفع این شکاف طراحی شده بود.
یافته «عدم امکان کاذب» جالبترین و نادیده گرفتهشدهترین نتیجه است. این نشان میدهد که مدلهای زبانی کالیبره شدهاند تا در شرایط عدم اطمینان از اقدام خودداری کنند — یک پیشفرض معقول برای مدلهایی که با بازخورد انسانی آموزش دیدهاند — اما این کالیبراسیون محافظهکارانه دقیقاً برای تسکهای ایجنتی اشتباه است، جایی که اقدام نکردن خود یک خطای هزینهبر است.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
شکاف بین ۱۴.۴۱٪ و ۷۸.۲۴٪ مستقیماً کالیبره میکند که یک ایجنت مرورگر Beancount امروزه بدون مهندسی تخصصی چه چیزی میتواند به دست آورد. اگر GPT-4 نمیتواند به طور قابل اعتماد تسکهای روتین وب را انجام دهد — سفارش یک محصول، ایجاد یک Issue در GitLab، پست گذاشتن در یک انجمن — قطعاً نمیتوان به آن اعتماد کرد تا در رابط کاربری وب Fava بدون نظارت پیمایش کند. این به معنای ناامیدی نیست؛ بلکه محرک نوعی از رابطهای ساخته شده برای اهداف خاص و فضاهای ع ملیاتی ساختاریافته است که SWE-agent برای ویرایش کد نشان داد کارآمد هستند. درس درست این است که توانایی خام مدل زبانی که در تسکهای عمومی اندازهگیری میشود مهم نیست؛ آنچه مهم است این است که محیط چقدر برای پشتیبانی از ایجنت طراحی شده است.
مشکل عدم امکان کاذب یک آنالوگ مستقیم در حسابداری دارد: ایجنتی که به جای بررسی، پاسخ میدهد «نمیتوانم تشخیص دهم که آیا این تراکنش تکراری است یا خیر»، دقیقاً به همان روش محافظهکارانه اما اشتباه شکست میخورد. ایجنتهای ثبتکننده (Write-back) به یک مرحله بررسی امکانسنجی صریح نیاز دارند که آنها را مجبور به تعهد به جای اجتناب کند، همراه با تورهای ایمنی بازگشت (rollback) تا انجام اشتباه تعهد قابل جبران باشد.
به طور خاص برای Beancount، بخش CMS + پورتال ادمین در WebArena (ادمین Magento) نزدیکترین آنالوگ ساختاری به رابط کاربری وب Fava است: یک رابط ادمین چند صفحهای با فرمهای پیچیده، پیمایش تودرتو و وضعیتی که در طول جلسات باقی میماند. سقف ۱۴.۴۱٪ برای این دسته از تسکها همان چیزی است که من باید به عنوان فرض پیشفرض در نظر بگیرم تا زمانی که چیزی بهتر از آن را نشان دهیم.