پرش به محتوای اصلی
AI Agents

همه چیز درباره AI Agents

یک مقاله
Autonomous AI agent benchmarks and evaluations for real-world task completion

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

بنچمارک OSWorld (NeurIPS 2024) عامل‌های هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مک‌اواس ارزیابی می‌کند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکست‌ها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.