OSWorld: موفقیت عاملهای هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسانها در ۷۲٪ آنها موفق میشوند
دیروز مقالهی WebArena را خواندم که موفقیت عاملهای وب خودمختار را در حدود ۱۴٪ در مقابل معیار انسانی ۷۸٪ قرار میداد. OSWorld (Xie et al., NeurIPS 2024) همین سوال را برای کل محیط دسکتاپ میپرسد: اوبونتو، ویندوز، مکاواس و برنامههای واقعی GUI. پاسخ، اگر نگوییم ناامیدکنندهتر، بسیار متواضعانه است — و نحوه شکست آنقدر متفاوت است که به خودی خود جالب توجه است.
مقاله
OSWorld بنچمارکی شامل ۳۶۹ وظیفه مبتنی بر برنامههای واقعی دسکتاپ میسازد: LibreOffice، Chrome، VS Code، GIMP، Thunderbird، VLC و جریانهای کاری چند-نرمافزاری. هر وظیفه دارای یک اسکریپت ارزیابی برنامهنویسیشده است که وضعیت واقعی سیستم را پس از اجرا بررسی میکند — بدون روشهای اکتشافی تطبیق رشتهها و بدون استفاده از LLM به عنوان داور. این تنظیمات از ماشینهای مجازی استفاده میکند تا وظایف از یک حالت قابل بازتولید شروع شوند و هر سه سیستمعامل اصلی را پوشش میدهد.
نویسندگان طیفی از مدلهای پیشرو — GPT-4V، Gemini-Pro-Vision، Claude-3 Opus، Mixtral، CogAgent — را در چهار پیکربندی ورودی آزمایش میکنند: فقط اسکرینشات، فقط درخت دسترسی (accessibility tree)، اسکرینشات به علاوه درخت دسترسی، و Set-of-Marks (SoM، جایی که عناصر تعاملی قبل از اقدام مدل با برچسبهای عددی پوشانده میشوند).
ایدههای کلیدی
- انسانها در وظایف ناآشنا در ۷۲.۳۶٪ مواقع موفق میشوند. بهترین مدل در زمان ارائه مقاله به ۱۲.۲۴٪ دست یافت. این شکاف حدود ۶۰ درصد است.
- عملکرد مدلهای برتر (GPT-4V، Gemini-Pro-Vision) در حالت «فقط اسکرینشات» حدود ۵.۲۶٪ تا ۵.۸۰٪ است — به این معنی که افزودن بافت ساختاریافته تقریباً موفقیت را دوبرابر میکند، اما همچنان ۸۷٪ شکست باقی میماند.
- وظایف جریان کاری چند-نرمافزاری با سقف ۶.۵۷٪، سختترین دسته هستند؛ در حالی که در وظایف OS/CLI، رابطهای متنی انطباق (grounding) را آسانتر میکنند.
- درخت دسترسی و Set-of-Marks کمک میکنند، اما مزیت آنها وابسته به مدل است: نویسندگان گزارش میدهند که این موارد میتوانند با غرق کردن مدل در ساختارهای نامرتبط، باعث سردرگمی شوند.
- پیشرفتهای پس از انتشار مقاله سریع بودهاند — Agent S (GPT-4o با حافظه سلسلهمراتبی) به ۲۰.۵۸٪ رسید؛ ARPO مبتنی بر یادگیری تقویتی (RL) آن را به ۲۹.۹٪ رساند؛ و Agent S3 (شرکت Simular AI، سال ۲۰۲۵) ادعای ۶۲.۶٪ در تنظیمات ۱۰۰ مرحلهای را دارد که به سطح برابری با انسان نزدیک میشود. اما بیشتر این دستاوردها ناشی از مدلهای انطباق بهتر و تنظیم دقیق (fine-tuning) با RL است، نه از مدلهای زبانی پایه که OSWorld در ابتدا آزمایش کرده بود.
- تحلیل خطای ۵۵۰ شکست: بیش از ۷۵٪ ناشی از عدم دقت در کلیک ماوس است — عامل به درستی استدلال میکند اما روی پیکسل اشتباه کلیک میکند. این یک شکست در استدلال نیست، بلکه شکست در انطباق بصری-حرکتی (visuomotor grounding) است.
چه چیزی تایید میشود — و چه چیزی نه
طراحی بنچمارک واقعاً دقیق است. ارزیابی مبتنی بر اجرا روی ماشینهای مجازی واقعی با ۱۳۴ اسکریپت ارزیابی متمایز، قضاوتهای مبهمی را که بسیاری از بنچمارکهای عاملها را دچار مشکل میکند، حذف میکند. این یک مشارکت روششناختی قابلتوجه است و به همین دلیل عدد ۱۲.۲۴٪ معتبر است.
سوال دشوارتر این است که ۱۲.۲۴٪ در واقع چه چیزی را اندازهگیری میکند. توزیع وظایف به سمت برنامههای سنگین از نظر رابط کاربری گرافیکی (GUI) متمایل است، جایی که کلیکهای دقیق پیکسلی بسیار مهم هستند. یک عامل Beancount که کاملاً در CLI اجرا میشود یا فایلهای متنی تولید میکند، احتمالاً در این بنچمارک بسیار بهتر از عاملی عمل میکند که فرمتبندی جداول را در LibreOffice انجام میدهد. عدد اصلی، تقاضاهای شناختی بسیار متفاوتی را در هم میآمیزد — کنترل حرکتی فضایی، برنامهریزی چند مرحلهای، دانش تخصصی — و نسبت دادن آن به یک ادعای واحد که «عاملها نمیتوانند از کامپیوتر استفاده کنند»، موضوع را بیش از حد ساده میکند.
یافتهی «Set-of-Marks میتواند برخی مدلها را گمراه کند» جالب است اما کمتر به آن پرداخته شده. مقاله به واریانس اشاره میکند بدون اینکه کاملاً توضیح دهد چه نوع وظایف یا مدلهایی کمک میگیرند یا آسیب میبینند. این به نظر مهمترین سوال برای طراحان رابط کاربری عاملها است، اما فقط یک پاراگراف به آن اختصاص یافته است.
من همچنین نسبت به اینکه نمونهی ۳۶۹ وظیفهای چقدر «دنباله بلند» (long tail) جریانهای کاری واقعی را پوشش میدهد، تردید دارم. وظایف توسط محققانی انتخاب شدهاند که ناگزیر به سمت وظایف قابل تأیید متمایل میشوند. وظایف حسابداری دنیای واقعی که واقعاً مبهم هستند — مانند «تمیز کردن نامهای ناهماهنگ پذیرندگان» — به سختی بهصورت برنامهنویسیشده ارزیابی میشوند و احتمالاً کمتر در این بنچمارک حضور دارند.
چرا این برای هوش مصنوعی در امور مالی مهم است
یافتهی «۷۵٪ شکستها خطای انطباق هستند» مستقیماً با عاملهای Beancount مرتبط است، حتی اگر Beancount در لایه متن زندگی کند. الگوی عمیقتر — اینکه عاملها به درستی برنامهریزی میکنند اما به اشتباه اجرا میکنند — با شکستهای بازنویسی دفتر کل مطابقت دارد، جایی که عامل تراکنش درستی را ایجاد میکند اما آن را در حساب اشتباه یا با تاریخ جابجا شده ثبت میکند. در هر دو مورد، گلوگاه اجرای دقیق است، نه استدلال استراتژیک.
عملکرد جریان کار چند-نرمافزاری (۶.۵۷٪) رقمی است که برای Bean Labs بسیار تاملبرانگیز است. جریانهای کاری حسابداری واقعی تقریباً همیشه شامل چندین برنامه هستند: یک خروجی CSV بانکی، یک فایل Beancount، یک صفحه گسترده مغایرتگیری، و یک رسید PDF. اگر عاملهای GUI حتی در وظایف گزینششده در هماهنگی چند برنامه به شدت دچار مشکل هستند، یک عامل Beancount که نیاز به سازماندهی واردات، ویرایش دفتر کل و تولید گزارش دارد، با چالشی ساختاری مشابه روبرو است — حتی در محیط CLI که هیچ کلیک پیکسلی در آن درگیر نیست.
خبر خوب از روند پس از مقاله (Agent S3 در ۶۲.۶٪) این است که اینها موانع بنیادین نیستند. آنها با مدلهای انطباق بهتر و تنظیم دقیق با RL قابل حل هستند. اما این پیشرفت به ۱۸ ماه زمان و توان محاسباتی قابلتوجه برای آموزش RL نیاز داشت، که این سطح توانمندی پیشفرضی نیست که یک عامل Beancount بتواند از ی ک مدل پیشرو با استفاده از پرامپت ساده انتظار داشته باشد.
چه چیزی را در ادامه بخوانیم
- AndroidWorld (Rawles et al., arXiv:2405.14573) — OSWorld را به دستگاههای اندرویدی با وظایف پارامتریک پویا گسترش میدهد که با رابطهای موبایلی Beancount مرتبط است.
- WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — OSWorld را با بیش از ۱۵۰ وظیفه برای ویندوز تطبیق میدهد؛ بهطور مستقل تأیید میکند که این شکاف در سیستمعاملهای مختلف وجود دارد.
- Agent S2 (Agashe et al., arXiv:2504.00906) — معماری ترکیبی عمومیساز-متخصص که مرزهای تکنولوژی را به میزان قابلتوجهی جابجا میکند؛ درک این معماری پیش از طراحی یک برنامهریز چندمرحلهای Beancount ارزشمند است.
