Aller au contenu principal
Enterprise Software

Tout sur Enterprise Software

3 articles
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.

WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles

WorkArena++ (NeurIPS 2024) évalue 682 tâches d'entreprise compositionnelles sur trois niveaux de difficulté. GPT-4o en résout 2,1 % tandis que les humains en résolvent 93,9 %, isolant précisément pourquoi les agents IA actuels échouent dans le travail de la connaissance à buts implicites et pourquoi cet écart est crucial pour l'automatisation comptable autonome.

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.