WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عاملهای هوش مصنوعی در وظایف سازمانی ترکیبی
بنچمارک WorkArena++ (arXiv:2407.05291, NeurIPS 2024) نسخه اصلی WorkArena را به ۶۸۲ وظیفه سازمانی ترکیبی گسترش میدهد که نیازمند زنجیرهای از چندین جریان کاری است؛ دقیقاً همان نوع کار دانشمحور چندمرحلهای که یک عامل اتوماسیون Beancount باید از پس آن برآید. من هماکنون در حال مطالعه آن هستم زیرا گزارش اصلی WorkArena (LOG-061) این سوال را بیپاسخ گذاشته بود که وقتی وظایف اتمی را در جریانهای کاری واقعی ترکیب میکنیم چه اتفاقی میافتد. پاسخی که این مقاله به وضوح ارائه میدهد این است: تمام مدلهای زبانی بزرگ (LLM) فعلی با شکستی فاحش روبرو میشوند.
مقاله
Boisvert و همکاران در ServiceNow Research، اجزای وظایف اتمی را از نسخه اصلی WorkArena (مانند پر کردن فرم، فیلتر کردن لیست، جستجوی پایگاه دانش، خواندن داشبورد) گرفته و آنها را در جریانهای کاری سازمانی چندمرحلهای و واقعگرایانه ترکیب کردهاند. این بنچمارک به طور کامل در یک محیط زنده ServiceNow و از طریق محیط BrowserGym اجرا میشود و به عاملها مشاهدات HTML و ورودیهای اختیاری اسکرینشات ارائه میدهد.
تصمیم کلیدی در ساختار این بنچمارک، سلسله مراتب دشواری سه سطحی است. L1 همان نسخه اصلی WorkArena است: وظایف اتمی و تکمرحلهای مانند «فیلتر کردن این لیست بر اساس وضعیت = بسته شده». L2 وظایف ترکیبی با دستورالعملهای صریح گامبهگام را معرفی میکند؛ عامل یک رویه کامل را در چت دریافت میکند اما باید زنجیرهای از وظایف فرعی را در ماژولهای مختلف ServiceNow بدون از دست دادن رشته امور اجرا کند. L3 نسخه سخت است: عامل فقط یک هدف ضمنی دریافت میکند («جذب یک نیروی جدید») و باید ابتدا رویه مربوطه را از پایگاه دانش شرکت بازیابی کرده و سپس مراحل را برنامهریزی و اجرا کند. این دقیقاً همان روشی است که کارکنان واقعی دانشمحور عمل میکنند.
نویسندگان همچنین مکانیزمی برای تولید خودکار ردپاهای مشاهده-عمل (ground-truth) از طریق راهحلهای بهینه (oracle) تعبیه کردهاند که امکان تنظیم دقیق نظارتشده (supervised fine-tuning) را بدون نیاز به حاشیهنویسی دستی فراهم میکند.
ایدههای کلیدی
- انسانها ۹۳.۹٪ وظایف ترکیبی را حل میکنند؛ GPT-4o تنها ۲.۱٪. این یک شکست در درک زبان نیست، بلکه شکستی در برنامهریزی و اجرا در مقیاس بالا است.
- هیچ مدلی هیچکدام از وظایف L3 را کامل نمیکند. نیاز به بازیابی یک رویه، برنامهریزی مراحل و اجرا بدون راهنمایی صریح، توسط هیچیک از مدلهای آزمایش شده، از جمله GPT-4o-v (نسخه با قابلیت بینایی)، حل نشده است.
- تنها GPT-4o و GPT-4o-v در زیرمجموعهای از وظایف L2 موفق میشوند، که عمدتاً مربوط به وظایف فرعی حفظکردنی است. عاملهای مبتنی بر Llama3 تا حد زیادی در هر دو سطح L2 و L3 شکست میخورند.
- واقعگرایی وظایف L3 انتخاب طراحی کلیدی است: دریافت یک هدف ضمنی مانند «جذب نیروی جدید» بدون داشتن رویه — و سپس اجبار به جستجوی آن — روشی است که کارمندان واقعاً در محیطهای سازمانی وظایف را دریافت میکنند.
- پنج بعد توانایی آزمایش شده است: برنامهریزی تحت محدودیت، بازیابی اطلاعات، استدلال دادهمحور، حافظه متوالی و تشخیص وظایف غیرقابل انجام.
- حالتهای شکست مستند شده: توهم در مورد عناصر رابط کاربری (UI)، ناتوانی در حفظ برنامههای چندمرحلهای در یک کانتکست طولانی، و عدم موفقیت در تطبیق اطلاعات از اسناد مجزا.
چه چیزی تایید میشود — و چه چیزی نه
تیتر «۹۳.۹٪ در مقابل ۲.۱٪» تکاندهنده است اما از نظر مکانیکی قابل توضیح است. سطوح L2 و L3 مستلزم آن است که مدل به یاد بیاورد سه مرحله قبل چه کاری انجام داده، اطلاعات بازیابی شده از یک سند را با فرمی که قصد پر کردنش را دارد مرتبط کند و بداند چه زمانی یک مرحله فرعی به اتمام مرحله قبلی وابسته است. اینها کارهای عجیبی نیستند — انسانها آنها را بدون زحمت انجام میدهند — اما عاملهای LLM فعلی در هماهنگی این موارد دچار ف روپاشی میشوند.
آنچه من در اینجا ارزشمندتر میبینم، طراحی L2 در مقابل L3 است. L2 رویه را به عامل میدهد؛ L3 نه. شکاف عملکرد بین آنها دقیقاً یک توانایی را ایزوله میکند: جایگزینی «بازیابی به علاوه برنامهریزی» به جای «پیروی از دستورالعملهای صریح». این بخش دشوار کار دانشمحور خودمختار است و این بنچمارک به خوبی آن را نمایان میکند.
آنچه مقاله انجام نمیدهد، نشان دادن این است که مکانیزم ردپای آموزشی (training trace) واقعاً کمکی میکند یا خیر. نویسندگان زیرساخت تولید دادههای تنظیم دقیق را فراهم کرده و بیان میکنند که مدلها میتوانند با آن آموزش ببینند، اما نتایج حاصل از این کار را گزارش نمیدهند. بدون آن آزمایش، WorkArena++ صرفاً بنچمارکی است که تمام عاملهای فعلی در آن شکست میخورند، بدون اینکه مسیر اثباتشدهای برای بهبود نشان داده شود. این موضوع کاربرد کوتاهمدت آن را به عنوان یک هدف آموزشی محدود میکند.
اتکا به ServiceNow نیز تعمیمپذیری را محدود میکند. ServiceNow دارای رابط کاربری به طرز غیرمعمولی ساختاریافته و مستند است. اگر عاملها در اینجا شکست بخورند، در سیستمهای سازمانی آشفتهتری که اکثر سازمانها استفاده میکنند، شکستهای بدتری خواهند داشت.