پرش به محتوای اصلی

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

بنچ‌مارک WorkArena++ (arXiv:2407.05291, NeurIPS 2024) نسخه اصلی WorkArena را به ۶۸۲ وظیفه سازمانی ترکیبی گسترش می‌دهد که نیازمند زنجیره‌ای از چندین جریان کاری است؛ دقیقاً همان نوع کار دانش‌محور چندمرحله‌ای که یک عامل اتوماسیون Beancount باید از پس آن برآید. من هم‌اکنون در حال مطالعه آن هستم زیرا گزارش اصلی WorkArena (LOG-061) این سوال را بی‌پاسخ گذاشته بود که وقتی وظایف اتمی را در جریان‌های کاری واقعی ترکیب می‌کنیم چه اتفاقی می‌افتد. پاسخی که این مقاله به وضوح ارائه می‌دهد این است: تمام مدل‌های زبانی بزرگ (LLM) فعلی با شکستی فاحش روبرو می‌شوند.

مقاله

2026-06-17-workarena-plus-plus-compositional-planning-enterprise-agents

Boisvert و همکاران در ServiceNow Research، اجزای وظایف اتمی را از نسخه اصلی WorkArena (مانند پر کردن فرم، فیلتر کردن لیست، جستجوی پایگاه دانش، خواندن داشبورد) گرفته و آن‌ها را در جریان‌های کاری سازمانی چندمرحله‌ای و واقع‌گرایانه ترکیب کرده‌اند. این بنچ‌مارک به طور کامل در یک محیط زنده ServiceNow و از طریق محیط BrowserGym اجرا می‌شود و به عامل‌ها مشاهدات HTML و ورودی‌های اختیاری اسکرین‌شات ارائه می‌دهد.

تصمیم کلیدی در ساختار این بنچ‌مارک، سلسله مراتب دشواری سه سطحی است. L1 همان نسخه اصلی WorkArena است: وظایف اتمی و تک‌مرحله‌ای مانند «فیلتر کردن این لیست بر اساس وضعیت = بسته شده». L2 وظایف ترکیبی با دستورالعمل‌های صریح گام‌به‌گام را معرفی می‌کند؛ عامل یک رویه کامل را در چت دریافت می‌کند اما باید زنجیره‌ای از وظایف فرعی را در ماژول‌های مختلف ServiceNow بدون از دست دادن رشته امور اجرا کند. L3 نسخه سخت است: عامل فقط یک هدف ضمنی دریافت می‌کند («جذب یک نیروی جدید») و باید ابتدا رویه مربوطه را از پایگاه دانش شرکت بازیابی کرده و سپس مراحل را برنامه‌ریزی و اجرا کند. این دقیقاً همان روشی است که کارکنان واقعی دانش‌محور عمل می‌کنند.

نویسندگان همچنین مکانیزمی برای تولید خودکار ردپاهای مشاهده-عمل (ground-truth) از طریق راه‌حل‌های بهینه (oracle) تعبیه کرده‌اند که امکان تنظیم دقیق نظارت‌شده (supervised fine-tuning) را بدون نیاز به حاشیه‌نویسی دستی فراهم می‌کند.

ایده‌های کلیدی

  • انسان‌ها ۹۳.۹٪ وظایف ترکیبی را حل می‌کنند؛ GPT-4o تنها ۲.۱٪. این یک شکست در درک زبان نیست، بلکه شکستی در برنامه‌ریزی و اجرا در مقیاس بالا است.
  • هیچ مدلی هیچ‌کدام از وظایف L3 را کامل نمی‌کند. نیاز به بازیابی یک رویه، برنامه‌ریزی مراحل و اجرا بدون راهنمایی صریح، توسط هیچ‌یک از مدل‌های آزمایش شده، از جمله GPT-4o-v (نسخه با قابلیت بینایی)، حل نشده است.
  • تنها GPT-4o و GPT-4o-v در زیرمجموعه‌ای از وظایف L2 موفق می‌شوند، که عمدتاً مربوط به وظایف فرعی حفظ‌کردنی است. عامل‌های مبتنی بر Llama3 تا حد زیادی در هر دو سطح L2 و L3 شکست می‌خورند.
  • واقع‌گرایی وظایف L3 انتخاب طراحی کلیدی است: دریافت یک هدف ضمنی مانند «جذب نیروی جدید» بدون داشتن رویه — و سپس اجبار به جستجوی آن — روشی است که کارمندان واقعاً در محیط‌های سازمانی وظایف را دریافت می‌کنند.
  • پنج بعد توانایی آزمایش شده است: برنامه‌ریزی تحت محدودیت، بازیابی اطلاعات، استدلال داده‌محور، حافظه متوالی و تشخیص وظایف غیرقابل انجام.
  • حالت‌های شکست مستند شده: توهم در مورد عناصر رابط کاربری (UI)، ناتوانی در حفظ برنامه‌های چندمرحله‌ای در یک کانتکست طولانی، و عدم موفقیت در تطبیق اطلاعات از اسناد مجزا.

چه چیزی تایید می‌شود — و چه چیزی نه

تیتر «۹۳.۹٪ در مقابل ۲.۱٪» تکان‌دهنده است اما از نظر مکانیکی قابل توضیح است. سطوح L2 و L3 مستلزم آن است که مدل به یاد بیاورد سه مرحله قبل چه کاری انجام داده، اطلاعات بازیابی شده از یک سند را با فرمی که قصد پر کردنش را دارد مرتبط کند و بداند چه زمانی یک مرحله فرعی به اتمام مرحله قبلی وابسته است. این‌ها کارهای عجیبی نیستند — انسان‌ها آن‌ها را بدون زحمت انجام می‌دهند — اما عامل‌های LLM فعلی در هماهنگی این موارد دچار فروپاشی می‌شوند.

آنچه من در اینجا ارزشمندتر می‌بینم، طراحی L2 در مقابل L3 است. L2 رویه را به عامل می‌دهد؛ L3 نه. شکاف عملکرد بین آن‌ها دقیقاً یک توانایی را ایزوله می‌کند: جایگزینی «بازیابی به علاوه برنامه‌ریزی» به جای «پیروی از دستورالعمل‌های صریح». این بخش دشوار کار دانش‌محور خودمختار است و این بنچ‌مارک به خوبی آن را نمایان می‌کند.

آنچه مقاله انجام نمی‌دهد، نشان دادن این است که مکانیزم ردپای آموزشی (training trace) واقعاً کمکی می‌کند یا خیر. نویسندگان زیرساخت تولید داده‌های تنظیم دقیق را فراهم کرده و بیان می‌کنند که مدل‌ها می‌توانند با آن آموزش ببینند، اما نتایج حاصل از این کار را گزارش نمی‌دهند. بدون آن آزمایش، WorkArena++ صرفاً بنچ‌مارکی است که تمام عامل‌های فعلی در آن شکست می‌خورند، بدون اینکه مسیر اثبات‌شده‌ای برای بهبود نشان داده شود. این موضوع کاربرد کوتاه‌مدت آن را به عنوان یک هدف آموزشی محدود می‌کند.

اتکا به ServiceNow نیز تعمیم‌پذیری را محدود می‌کند. ServiceNow دارای رابط کاربری به طرز غیرمعمولی ساختاریافته و مستند است. اگر عامل‌ها در اینجا شکست بخورند، در سیستم‌های سازمانی آشفته‌تری که اکثر سازمان‌ها استفاده می‌کنند، شکست‌های بدتری خواهند داشت.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

ارتباط با اتوماسیون Beancount مستقیم است. یک عامل حسابداری خودمختار به طور پیش‌فرض کارهایی از نوع L3 انجام می‌دهد: کاربر می‌گوید «هزینه‌های ماه گذشته را تطبیق بده» و عامل باید ساختار حساب مربوطه را از دفتر کل (ledger) بازیابی کند، برای بررسی ورودی‌ها برنامه‌ریزی کند، آن‌ها را با داده‌های بانکی وارد شده مطابقت دهد و عملیات ثبت را اجرا کند — همه این‌ها بدون راهنمای گام‌به‌گام. WorkArena++ عددی را نشان می‌دهد که گویای ضعف شدید عامل‌های فعلی در مدیریت این الگو است.

مکانیزم ردپای آموزشی نیز بلافاصله قابل اجراست. وظایف Beancount دارای راه‌حل‌های اوراکل قطعی هستند — ثبتهای صحیح دفتر روزنامه قابل تاییدند — که به این معنی است که ردپاهای واقعیت زمینی (ground-truth) می‌توانند در مقیاس بالا برای تنظیم دقیق یک عامل تخصصی دفتر کل تولید شوند. این دقیقاً همان چیزی است که WorkArena++ امکان آن را فراهم کرده اما در خود مقاله از آن بهره‌برداری نشده است. این بیشتر یک طرح اولیه طراحی است تا یک مسئله حل شده.

نرخ موفقیت صفر در سطح L3 مفیدترین نقطه کالیبراسیون برای Bean Labs است: حتی در یک محیط سازمانی کنترل‌شده با داده‌های تمیز و رابط ساختاریافته، عامل‌های پیشرو هنوز نمی‌توانند وظایف ترکیبی با اهداف ضمنی را مدیریت کنند. این شکاف دقیقاً همان جایی است که تحقیقات جالب در آن جریان دارد.

چه چیز دیگری بخوانیم

  • TheAgentCompany (arXiv:2412.14161) — ۱۷۵ وظیفه در یک شرکت نرم‌افزاری شبیه‌سازی شده با ابزارهای داخلی واقعی (GitLab, RocketChat)؛ بهترین عامل حدود ۳۰٪ را کامل می‌کند؛ محیطی سازمانی و طبیعی‌تر از ServiceNow.
  • τ²-bench (arXiv:2506.07982) — گسترش τ-bench به محیط‌های با کنترل دوگانه که در آن هم عامل و هم کاربر می‌توانند همزمان حالت مشترک را تغییر دهند؛ مستقیماً با جلسات Beancount مرتبط است که در آن کاربران و عامل‌ها با هم یک دفتر کل را ویرایش می‌کنند.
  • CRMArena-Pro (arXiv:2505.18878) — ارزیابی جامع عامل‌های LLM در سناریوهای تجاری CRM با استفاده از مدل‌های جدیدتر؛ بررسی اینکه آیا شکاف توانایی WorkArena++ کمتر شده است یا خیر.