Salta al contingut principal
Enterprise Software

Tot Sobre Enterprise Software

3 articles
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.

WorkArena++: La bretxa del 93% entre el rendiment humà i el dels agents d'IA en tasques empresarials composicionals

WorkArena++ (NeurIPS 2024) avalua 682 tasques empresarials composicionals en tres nivells de dificultat. GPT-4o en resol el 2,1% mentre que els humans en resolen el 93,9%, identificant exactament per què els agents d'IA actuals fallen en el treball de coneixement amb objectius implícits i per què aquesta bretxa és rellevant per a l'automatització comptable autònoma.

WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals

WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.