پرش به محتوای اصلی

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

دیروز مقاله‌ی WebArena را خواندم که موفقیت عامل‌های وب خودمختار را در حدود ۱۴٪ در مقابل معیار انسانی ۷۸٪ قرار می‌داد. OSWorld (Xie et al., NeurIPS 2024) همین سوال را برای کل محیط دسکتاپ می‌پرسد: اوبونتو، ویندوز، مک‌اواس و برنامه‌های واقعی GUI. پاسخ، اگر نگوییم ناامیدکننده‌تر، بسیار متواضعانه است — و نحوه شکست آن‌قدر متفاوت است که به خودی خود جالب توجه است.

مقاله

2026-06-15-osworld-benchmarking-multimodal-agents-real-computer-environments

OSWorld بنچمارکی شامل ۳۶۹ وظیفه مبتنی بر برنامه‌های واقعی دسکتاپ می‌سازد: LibreOffice، Chrome، VS Code، GIMP، Thunderbird، VLC و جریان‌های کاری چند-نرم‌افزاری. هر وظیفه دارای یک اسکریپت ارزیابی برنامه‌نویسی‌شده است که وضعیت واقعی سیستم را پس از اجرا بررسی می‌کند — بدون روش‌های اکتشافی تطبیق رشته‌ها و بدون استفاده از LLM به عنوان داور. این تنظیمات از ماشین‌های مجازی استفاده می‌کند تا وظایف از یک حالت قابل بازتولید شروع شوند و هر سه سیستم‌عامل اصلی را پوشش می‌دهد.

نویسندگان طیفی از مدل‌های پیشرو — GPT-4V، Gemini-Pro-Vision، Claude-3 Opus، Mixtral، CogAgent — را در چهار پیکربندی ورودی آزمایش می‌کنند: فقط اسکرین‌شات، فقط درخت دسترسی (accessibility tree)، اسکرین‌شات به علاوه درخت دسترسی، و Set-of-Marks (SoM، جایی که عناصر تعاملی قبل از اقدام مدل با برچسب‌های عددی پوشانده می‌شوند).

ایده‌های کلیدی

  • انسان‌ها در وظایف ناآشنا در ۷۲.۳۶٪ مواقع موفق می‌شوند. بهترین مدل در زمان ارائه مقاله به ۱۲.۲۴٪ دست یافت. این شکاف حدود ۶۰ درصد است.
  • عملکرد مدل‌های برتر (GPT-4V، Gemini-Pro-Vision) در حالت «فقط اسکرین‌شات» حدود ۵.۲۶٪ تا ۵.۸۰٪ است — به این معنی که افزودن بافت ساختاریافته تقریباً موفقیت را دوبرابر می‌کند، اما همچنان ۸۷٪ شکست باقی می‌ماند.
  • وظایف جریان کاری چند-نرم‌افزاری با سقف ۶.۵۷٪، سخت‌ترین دسته هستند؛ در حالی که در وظایف OS/CLI، رابط‌های متنی انطباق (grounding) را آسان‌تر می‌کنند.
  • درخت دسترسی و Set-of-Marks کمک می‌کنند، اما مزیت آن‌ها وابسته به مدل است: نویسندگان گزارش می‌دهند که این موارد می‌توانند با غرق کردن مدل در ساختارهای نامرتبط، باعث سردرگمی شوند.
  • پیشرفت‌های پس از انتشار مقاله سریع بوده‌اند — Agent S (GPT-4o با حافظه سلسله‌مراتبی) به ۲۰.۵۸٪ رسید؛ ARPO مبتنی بر یادگیری تقویتی (RL) آن را به ۲۹.۹٪ رساند؛ و Agent S3 (شرکت Simular AI، سال ۲۰۲۵) ادعای ۶۲.۶٪ در تنظیمات ۱۰۰ مرحله‌ای را دارد که به سطح برابری با انسان نزدیک می‌شود. اما بیشتر این دستاوردها ناشی از مدل‌های انطباق بهتر و تنظیم دقیق (fine-tuning) با RL است، نه از مدل‌های زبانی پایه که OSWorld در ابتدا آزمایش کرده بود.
  • تحلیل خطای ۵۵۰ شکست: بیش از ۷۵٪ ناشی از عدم دقت در کلیک ماوس است — عامل به درستی استدلال می‌کند اما روی پیکسل اشتباه کلیک می‌کند. این یک شکست در استدلال نیست، بلکه شکست در انطباق بصری-حرکتی (visuomotor grounding) است.

چه چیزی تایید می‌شود — و چه چیزی نه

طراحی بنچمارک واقعاً دقیق است. ارزیابی مبتنی بر اجرا روی ماشین‌های مجازی واقعی با ۱۳۴ اسکریپت ارزیابی متمایز، قضاوت‌های مبهمی را که بسیاری از بنچمارک‌های عامل‌ها را دچار مشکل می‌کند، حذف می‌کند. این یک مشارکت روش‌شناختی قابل‌توجه است و به همین دلیل عدد ۱۲.۲۴٪ معتبر است.

سوال دشوارتر این است که ۱۲.۲۴٪ در واقع چه چیزی را اندازه‌گیری می‌کند. توزیع وظایف به سمت برنامه‌های سنگین از نظر رابط کاربری گرافیکی (GUI) متمایل است، جایی که کلیک‌های دقیق پیکسلی بسیار مهم هستند. یک عامل Beancount که کاملاً در CLI اجرا می‌شود یا فایل‌های متنی تولید می‌کند، احتمالاً در این بنچمارک بسیار بهتر از عاملی عمل می‌کند که فرمت‌بندی جداول را در LibreOffice انجام می‌دهد. عدد اصلی، تقاضاهای شناختی بسیار متفاوتی را در هم می‌آمیزد — کنترل حرکتی فضایی، برنامه‌ریزی چند مرحله‌ای، دانش تخصصی — و نسبت دادن آن به یک ادعای واحد که «عامل‌ها نمی‌توانند از کامپیوتر استفاده کنند»، موضوع را بیش از حد ساده می‌کند.

یافته‌ی «Set-of-Marks می‌تواند برخی مدل‌ها را گمراه کند» جالب است اما کمتر به آن پرداخته شده. مقاله به واریانس اشاره می‌کند بدون اینکه کاملاً توضیح دهد چه نوع وظایف یا مدل‌هایی کمک می‌گیرند یا آسیب می‌بینند. این به نظر مهم‌ترین سوال برای طراحان رابط کاربری عامل‌ها است، اما فقط یک پاراگراف به آن اختصاص یافته است.

من همچنین نسبت به اینکه نمونه‌ی ۳۶۹ وظیفه‌ای چقدر «دنباله بلند» (long tail) جریان‌های کاری واقعی را پوشش می‌دهد، تردید دارم. وظایف توسط محققانی انتخاب شده‌اند که ناگزیر به سمت وظایف قابل تأیید متمایل می‌شوند. وظایف حسابداری دنیای واقعی که واقعاً مبهم هستند — مانند «تمیز کردن نام‌های ناهماهنگ پذیرندگان» — به سختی به‌صورت برنامه‌نویسی‌شده ارزیابی می‌شوند و احتمالاً کمتر در این بنچمارک حضور دارند.

چرا این برای هوش مصنوعی در امور مالی مهم است

یافته‌ی «۷۵٪ شکست‌ها خطای انطباق هستند» مستقیماً با عامل‌های Beancount مرتبط است، حتی اگر Beancount در لایه متن زندگی کند. الگوی عمیق‌تر — اینکه عامل‌ها به درستی برنامه‌ریزی می‌کنند اما به اشتباه اجرا می‌کنند — با شکست‌های بازنویسی دفتر کل مطابقت دارد، جایی که عامل تراکنش درستی را ایجاد می‌کند اما آن را در حساب اشتباه یا با تاریخ جابجا شده ثبت می‌کند. در هر دو مورد، گلوگاه اجرای دقیق است، نه استدلال استراتژیک.

عملکرد جریان کار چند-نرم‌افزاری (۶.۵۷٪) رقمی است که برای Bean Labs بسیار تامل‌برانگیز است. جریان‌های کاری حسابداری واقعی تقریباً همیشه شامل چندین برنامه هستند: یک خروجی CSV بانکی، یک فایل Beancount، یک صفحه گسترده مغایرت‌گیری، و یک رسید PDF. اگر عامل‌های GUI حتی در وظایف گزینش‌شده در هماهنگی چند برنامه به شدت دچار مشکل هستند، یک عامل Beancount که نیاز به سازماندهی واردات، ویرایش دفتر کل و تولید گزارش دارد، با چالشی ساختاری مشابه روبرو است — حتی در محیط CLI که هیچ کلیک پیکسلی در آن درگیر نیست.

خبر خوب از روند پس از مقاله (Agent S3 در ۶۲.۶٪) این است که این‌ها موانع بنیادین نیستند. آن‌ها با مدل‌های انطباق بهتر و تنظیم دقیق با RL قابل حل هستند. اما این پیشرفت به ۱۸ ماه زمان و توان محاسباتی قابل‌توجه برای آموزش RL نیاز داشت، که این سطح توانمندی پیش‌فرضی نیست که یک عامل Beancount بتواند از یک مدل پیشرو با استفاده از پرامپت ساده انتظار داشته باشد.

چه چیزی را در ادامه بخوانیم

  • AndroidWorld (Rawles et al., arXiv:2405.14573) — OSWorld را به دستگاه‌های اندرویدی با وظایف پارامتریک پویا گسترش می‌دهد که با رابط‌های موبایلی Beancount مرتبط است.
  • WindowsAgentArena (Bonatti et al., arXiv:2409.08264, ICLR 2025) — OSWorld را با بیش از ۱۵۰ وظیفه برای ویندوز تطبیق می‌دهد؛ به‌طور مستقل تأیید می‌کند که این شکاف در سیستم‌عامل‌های مختلف وجود دارد.
  • Agent S2 (Agashe et al., arXiv:2504.00906) — معماری ترکیبی عمومی‌ساز-متخصص که مرزهای تکنولوژی را به میزان قابل‌توجهی جابجا می‌کند؛ درک این معماری پیش از طراحی یک برنامه‌ریز چندمرحله‌ای Beancount ارزشمند است.