TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.
WorkArena++ (NeurIPS 2024) тестує 682 складні композиційні корпоративні завдання на трьох рівнях складності. GPT-4o вирішує лише 2,1% з них, тоді як люди — 93,9%. Це демонструє, чому сучасні ШІ-агенти не справляються з інтелектуальною працею, що передбачає неявні цілі, і чому цей розрив критичний для автономної автоматизації бухгалтерського обліку.
WorkArena тестує вебагентів на базі LLM у 33 реальних завданнях ServiceNow — GPT-4o досягає 42,7% загалом, але 0% у завданнях із фільтрацією списків, виявляючи жорсткий бар'єр між заповненням форм і структурованою взаємодією з UI, що безпосередньо стосується проблем автоматизації реєстру Beancount.