3 publicações com a etiqueta "Enterprise Software"

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

O TheAgentCompany testa 175 tarefas reais de trabalho em uma intranet simulada com GitLab, OwnCloud e RocketChat. O melhor modelo (Gemini-2.5-Pro) conclui apenas 30% das tarefas a um custo de US$ 4 cada, revelando que agentes autônomos permanecem longe de serem viáveis para fluxos de trabalho contábeis e financeiros.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

O WorkArena++ (NeurIPS 2024) avalia 682 tarefas empresariais composicionais em três níveis de dificuldade. O GPT-4o resolve 2,1% delas, enquanto humanos resolvem 93,9%, isolando exatamente por que os agentes de IA atuais falham em trabalhos de conhecimento com objetivos implícitos e por que essa lacuna é importante para a automação contábil autônoma.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.

Tudo Sobre Enterprise Software

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico