AI Agents

همه چیز درباره AI Agents

یک مقاله

Autonomous AI agent benchmarks and evaluations for real-world task completion

بازگشت به تمام پست‌ها مشاهده تمام برچسب‌ها

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

بنچمارک OSWorld (NeurIPS 2024) عامل‌های هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مک‌اواس ارزیابی می‌کند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکست‌ها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.

شروع کار با Beancount.io

با سیستم حسابداری دوطرفه متن‌باز ما، کنترل امور مالی خود را به دست بگیرید. دفتر کل خود را از امروز شروع کنید.

رایگان شروع کنید مشاهده قیمت‌ها

ساخته شده با شفافیت • تحت کنترل نسخه • قدرت گرفته از هوش مصنوعی

همه چیز درباره AI Agents

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی