پرش به محتوای اصلی
Enterprise Software

همه چیز درباره Enterprise Software

3 مقاله
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیه‌سازی شده شامل GitLab، OwnCloud و RocketChat آزمایش می‌کند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام می‌رساند، که نشان می‌دهد عامل‌های خودمختار هنوز با کاربردی شدن در جریان‌های کاری حسابداری و مالی فاصله زیادی دارند.

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

بنچ‌مارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی می‌کند. در حالی که انسان‌ها ۹۳.۹٪ این وظایف را حل می‌کنند، GPT-4o تنها موفق به حل ۲.۱٪ آن‌ها می‌شود؛ این موضوع به دقت نشان می‌دهد که چرا عامل‌های هوش مصنوعی فعلی در کارهای دانش‌محور با اهداف ضمنی شکست می‌خورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

WorkArena عملکرد عامل‌های وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow می‌سنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیست‌ها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشان‌دهنده وجود یک سد محکم بین پر کردن فرم‌ها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالش‌های اتوماسیون دفترکل Beancount همخوانی دارد.