Перейти к контенту
Enterprise Software

Все о Enterprise Software

3 статей
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах

TheAgentCompany тестирует 175 реальных рабочих задач в симулированной интрасети с GitLab, OwnCloud и RocketChat. Лучшая модель (Gemini-2.5-Pro) выполняет лишь 30% задач по цене 4 доллара за каждую, что доказывает: автономные агенты все еще далеки от пригодности для рабочих процессов в бухгалтерии и финансах.

WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах

WorkArena++ (NeurIPS 2024) тестирует 682 композиционные корпоративные задачи на трех уровнях сложности. GPT-4o решает 2,1% из них, в то время как люди — 93,9%, что точно определяет причины неудач современных ИИ-агентов в интеллектуальной работе с неявными целями и показывает значение этого разрыва для автономной автоматизации учета.

WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний

WorkArena тестирует LLM веб-агентов на 33 реальных задачах ServiceNow — GPT-4o достигает 42,7% в целом, но 0% в задачах с фильтрацией списков, выявляя непреодолимую стену между заполнением форм и структурированным взаимодействием с UI, что напрямую коррелирует с проблемами автоматизации журналов Beancount.