OSWorld: موفقیت عاملهای هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسانها در ۷۲٪ آنها موفق میشوند
بنچمارک OSWorld (NeurIPS 2024) عاملهای هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مکاواس ارزیابی میکند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکستها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.
