پرش به محتوای اصلی

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

بنچ‌مارک ۸۱۲-تسک WebArena سلف مستقیم WorkArena است که دیروز در مورد آن نوشتم. خواندن پشت سر هم آن‌ها یک تفاوت کلیدی را روشن می‌کند: WorkArena کارهای دانشی سازمانی را در یک پلتفرم (ServiceNow) اندازه‌گیری می‌کند، در حالی که WebArena کفِ توانایی عمومی ایجنت‌های وب را در نرم‌افزارهای متن‌باز و واقعی تعیین می‌کند. من می‌خواهم این کف را دقیقاً درک کنم، قبل از اینکه به ایجنت‌های Beancount فکر کنم که در نهایت در محیط‌های مرورگر کار خواهند کرد.

مقاله

2026-06-14-webarena-realistic-web-environment-autonomous-agents

ژو و همکاران (ICLR 2024, arXiv:2307.13854) پلتفرم WebArena را معرفی کردند، یک بنچ‌مارک تکرارپذیر از ۸۱۲ تسک در چهار وب‌سایت خودمیزبانی (self-hosted): یک فروشگاه تجارت الکترونیک Magento، یک انجمن اجتماعی Postmill، یک نمونه GitLab، و یک پورتال ادمین CMS Magento، که با یک آینه از OpenStreetMap و نسخه‌ای آفلاین از ویکی‌پدیا تکمیل شده است. بر خلاف تسک‌های اسباب‌بازی و ساختگی MiniWoB++، هر سایت WebArena نرم‌افزارهای متن‌باز واقعی را با مقیاس معتبر اجرا می‌کند: تقریباً ۹۰,۰۰۰ محصول، ۹۵ ساب‌ردیت با بیش از ۱۲۷,۰۰۰ پست، و ۳۰۰ مخزن گیت در میان ۱,۰۰۰ حساب توسعه‌دهنده. تسک‌ها سه دسته را شامل می‌شوند — جستجوی اطلاعات، پیمایش سایت، و تغییرات محتوا/پیکربندی — و بر اساس درستی عملکردی ارزیابی می‌شوند: اینکه آیا نتیجه مورد نظر در پایگاه داده ظاهر می‌شود یا با یک پاسخ دقیق/تقریبی مطابقت دارد، نه اینکه آیا ایجنت توالی عملیات مورد انتظار را دنبال کرده است یا خیر.

ایده‌های کلیدی

  • GPT-4 به ۱۴.۴۱٪ می‌رسد؛ انسان‌ها به ۷۸.۲۴٪ می‌رسند. شکاف ۶۳.۸ واحد درصد است. امتیاز GPT-3.5 برابر با ۸.۷۵٪ و خط پایه Google Text-Bison-001 تنها ۵.۰۵٪ است. پرامپت‌نویسی زنجیره افکار (Chain-of-thought) حدود ۲.۳ امتیاز برای GPT-4 اضافه می‌کند — که مفید است اما تحول‌آفرین نیست.
  • شایع‌ترین شکست، عدم امکان کاذب (False Impossibility) است. GPT-4 به اشتباه تقریباً ۵۴.۹٪ از تسک‌های قابل دستیابی (۴۲۸ از ۸۱۲ تسک) را غیرممکن برچسب‌گذاری کرد و به جای تلاش برای انجام آن‌ها، [N/A] را برگرداند. این حالت شکست غالب است، نه توالی‌های عملیاتی نویزدار یا خطاهای ابزار.
  • درستی عملکردی، نه بازپخش مسیر (Trajectory Replay). ارزیابی چهار نوع شواهد را بررسی می‌کند: مطابقت دقیق، بررسی کلمات کلیدی که باید شامل شوند، مطابقت تقریبی مبتنی بر LLM، و اعتبارسنجی برنامه‌نویسی شده از طریق کوئری‌های پایگاه داده یا جاوا اسکریپت. این باعث می‌شود معیار در برابر بازنویسی‌ها مقاوم باشد اما همچنان در برابر مشخصات مبهم تسک آسیب‌پذیر است.
  • خودمیزبانی کانتینری امکان تکرارپذیری را فراهم می‌کند. هر چهار سایت به عنوان کانتینرهای Docker عرضه می‌شوند، چیزی که بنچ‌مارک‌های بعدی (WorkArena، OSWorld) از آن تقلید کردند. شما می‌توانید وضعیت را ریست کنید و شرایط شروع یکسان را تضمین کنید، کاری که با استخراج زنده وب (live web scraping) غیرممکن است.
  • قالب‌های تسک از حفظ کردن کورکورانه جلوگیری می‌کنند. ۲۴۱ قالب، ۸۱۲ تسک نمونه‌سازی شده (۳.۳ واریانت برای هر کدام) ایجاد می‌کنند، که تا حدی کمک می‌کند اما مانع از آن نمی‌شود که یک مدل مصمم، الگوهای قالب را به جای اصول پیمایش وب یاد بگیرد.
  • پیچیدگی واقعی DOM چندین مرتبه بزرگتر از MiniWoB++ است. یک صفحه معمولی WebArena به هزاران توکن تبدیل می‌شود؛ کارهای مرتبط گزارش می‌دهند که درخت‌های DOM برای نماهای پورتال پیچیده از ۱۰۰,۰۰۰ توکن فراتر می‌روند.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

روش‌شناسی اصلی درست است: نرم‌افزار واقعی، ارزیابی مبتنی بر نتیجه، و محیط‌های تکرارپذیر دقیقاً مسیر صحیح هستند. عدد ۱۴.۴۱٪ در بازتولیدهای مستقل پایدار بوده است و طبقه‌بندی شکست (عدم امکان کاذب، رفتارهای حلقوی، امتناع ترسو) توسط چندین مقاله بعدی تایید شده است.

با این حال، محدودیت‌ها واقعی هستند. اول، ۸۱۲ تسک مشتق شده از ۲۴۱ قالب به این معنی است که بنچ‌مارک محدود است و به طور سیستماتیک قابل پوشش است؛ ایجنتی که الگوهای قالب را حفظ کند می‌تواند بدون تعمیم‌دهی، دچار بیش‌برازش (overfit) شود. پروژه WebArena Verified (۲۰۲۴–۲۰۲۵) چک‌های ارزیابی ناهماهنگ را کشف و اصلاح کرد، به این معنی که بخشی از رقم اولیه ۱۴.۴۱٪ ممکن است بازتاب‌دهنده نویز ارزیابی باشد تا توانایی خالص. دوم، چهار نوع وب‌سایت — تجارت الکترونیک، انجمن، میزبانی کد، CMS — محتمل هستند اما نمونه‌ای اصولی از کل وب نیستند. هیچ نرم‌افزار سازمانی (SaaS)، هیچ پورتال دولتی پر از فرم، و هیچ رابط بانکی وجود ندارد. سوم، بنچ‌مارک به طور کامل ایمنی و قابلیت اطمینان را نادیده می‌گیرد: ایجنتی که در «حذف این پست» موفق می‌شود، همان امتیازی را می‌گیرد که چه پست درست را حذف کند و چه ده پست دیگر را. ST-WebAgentBench (۲۰۲۴) دقیقاً برای رفع این شکاف طراحی شده بود.

یافته «عدم امکان کاذب» جالب‌ترین و نادیده گرفته‌شده‌ترین نتیجه است. این نشان می‌دهد که مدل‌های زبانی کالیبره شده‌اند تا در شرایط عدم اطمینان از اقدام خودداری کنند — یک پیش‌فرض معقول برای مدل‌هایی که با بازخورد انسانی آموزش دیده‌اند — اما این کالیبراسیون محافظه‌کارانه دقیقاً برای تسک‌های ایجنتی اشتباه است، جایی که اقدام نکردن خود یک خطای هزینه‌بر است.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

شکاف بین ۱۴.۴۱٪ و ۷۸.۲۴٪ مستقیماً کالیبره می‌کند که یک ایجنت مرورگر Beancount امروزه بدون مهندسی تخصصی چه چیزی می‌تواند به دست آورد. اگر GPT-4 نمی‌تواند به طور قابل اعتماد تسک‌های روتین وب را انجام دهد — سفارش یک محصول، ایجاد یک Issue در GitLab، پست گذاشتن در یک انجمن — قطعاً نمی‌توان به آن اعتماد کرد تا در رابط کاربری وب Fava بدون نظارت پیمایش کند. این به معنای ناامیدی نیست؛ بلکه محرک نوعی از رابط‌های ساخته شده برای اهداف خاص و فضاهای عملیاتی ساختاریافته است که SWE-agent برای ویرایش کد نشان داد کارآمد هستند. درس درست این است که توانایی خام مدل زبانی که در تسک‌های عمومی اندازه‌گیری می‌شود مهم نیست؛ آنچه مهم است این است که محیط چقدر برای پشتیبانی از ایجنت طراحی شده است.

مشکل عدم امکان کاذب یک آنالوگ مستقیم در حسابداری دارد: ایجنتی که به جای بررسی، پاسخ می‌دهد «نمی‌توانم تشخیص دهم که آیا این تراکنش تکراری است یا خیر»، دقیقاً به همان روش محافظه‌کارانه اما اشتباه شکست می‌خورد. ایجنت‌های ثبت‌کننده (Write-back) به یک مرحله بررسی امکان‌سنجی صریح نیاز دارند که آن‌ها را مجبور به تعهد به جای اجتناب کند، همراه با تورهای ایمنی بازگشت (rollback) تا انجام اشتباه تعهد قابل جبران باشد.

به طور خاص برای Beancount، بخش CMS + پورتال ادمین در WebArena (ادمین Magento) نزدیک‌ترین آنالوگ ساختاری به رابط کاربری وب Fava است: یک رابط ادمین چند صفحه‌ای با فرم‌های پیچیده، پیمایش تودرتو و وضعیتی که در طول جلسات باقی می‌ماند. سقف ۱۴.۴۱٪ برای این دسته از تسک‌ها همان چیزی است که من باید به عنوان فرض پیش‌فرض در نظر بگیرم تا زمانی که چیزی بهتر از آن را نشان دهیم.

چه چیزی را در ادامه بخوانیم

  • VisualWebArena (کوه و همکاران، ۲۰۲۴، arXiv:2401.13649) — WebArena را به ایجنت‌های چندوجهی با استفاده از اسکرین‌شات گسترش می‌دهد، که برای Fava مهم است زیرا همه وضعیت‌های مرتبط در DOM نیستند.
  • OSWorld (شی و همکاران، NeurIPS 2024, arXiv:2404.07972) — بنچ‌مارک کامل محیط دسکتاپ؛ ۱۲.۲۴٪ برای بهترین مدل چندوجهی در مقابل ۷۲.۳۶٪ انسان، که شکاف توانایی را به اتوماسیون GUI فراتر از مرورگر گسترش می‌دهد.
  • ST-WebAgentBench (arXiv:2410.06703) — مستقیماً به شکاف ایمنی در WebArena می‌پردازد و اندازه‌گیری می‌کند که آیا ایجنت‌های وب هنگام انجام تسک‌ها به محدودیت‌های خط‌مشی احترام می‌گذارند یا خیر.