Перейти до основного вмісту
Enterprise Software

Все про Enterprise Software

3 статті
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.

WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях

WorkArena++ (NeurIPS 2024) тестує 682 складні композиційні корпоративні завдання на трьох рівнях складності. GPT-4o вирішує лише 2,1% з них, тоді як люди — 93,9%. Це демонструє, чому сучасні ШІ-агенти не справляються з інтелектуальною працею, що передбачає неявні цілі, і чому цей розрив критичний для автономної автоматизації бухгалтерського обліку.

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

WorkArena тестує вебагентів на базі LLM у 33 реальних завданнях ServiceNow — GPT-4o досягає 42,7% загалом, але 0% у завданнях із фільтрацією списків, виявляючи жорсткий бар'єр між заповненням форм і структурованою взаємодією з UI, що безпосередньо стосується проблем автоматизації реєстру Beancount.