3 articles tagués avec « Enterprise Software »

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles

WorkArena++ (NeurIPS 2024) évalue 682 tâches d'entreprise compositionnelles sur trois niveaux de difficulté. GPT-4o en résout 2,1 % tandis que les humains en résolvent 93,9 %, isolant précisément pourquoi les agents IA actuels échouent dans le travail de la connaissance à buts implicites et pourquoi cet écart est crucial pour l'automatisation comptable autonome.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.

Tout sur Enterprise Software

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales