Pular para o conteúdo principal
Enterprise Software

Tudo Sobre Enterprise Software

3 artigos
Enterprise software automation, web agents, and knowledge work task research

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

O WorkArena++ (NeurIPS 2024) avalia 682 tarefas empresariais composicionais em três níveis de dificuldade. O GPT-4o resolve 2,1% delas, enquanto humanos resolvem 93,9%, isolando exatamente por que os agentes de IA atuais falham em trabalhos de conhecimento com objetivos implícitos e por que essa lacuna é importante para a automação contábil autônoma.

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.