TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.
WorkArena++ (NeurIPS 2024) avalua 682 tasques empresarials composicionals en tres nivells de dificultat. GPT-4o en resol el 2,1% mentre que els humans en resolen el 93,9%, identificant exactament per què els agents d'IA actuals fallen en el treball de coneixement amb objectius implícits i per què aquesta bretxa és rellevant per a l'automatització comptable autònoma.
WorkArena avalua els agents web d'LLM en 33 tasques reals de ServiceNow: el GPT-4o arriba al 42,7% global, però al 0% en tasques de filtratge de llistes, revelant una barrera insuperable entre l'emplenat de formularis i la interacció amb la interfície d'usuari estructurada que es relaciona directament amb els reptes de l'automatització de llibres majors de Beancount.