پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیهسازی شده شامل GitLab، OwnCloud و RocketChat آزمایش میکند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام میرساند، که نشان میدهد عاملهای خودمختار هنوز با کاربردی شدن در جریانهای کاری حسابداری و مالی فاصله زیادی دارند.
بنچمارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی میکند. در حالی که انسانها ۹۳.۹٪ این وظایف را حل میکنند، GPT-4o تنها موفق به حل ۲.۱٪ آنها میشود؛ این موضوع به دقت نشان میدهد که چرا عاملهای هوش مصنوعی فعلی در کارهای دانشمحور با اهداف ضمنی شکست میخورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.
WorkArena عملکرد عاملهای وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow میسنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیستها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشاندهنده وجود یک سد محکم بین پر کردن فرمها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالشهای اتوماسیون دفترکل Beancount همخوانی دارد.