3 publicaciones etiquetadas con "Enterprise Software"

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real

TheAgentCompany pone a prueba 175 tareas reales en el lugar de trabajo a través de una intranet simulada con GitLab, OwnCloud y RocketChat. El mejor modelo (Gemini-2.5-Pro) completa solo el 30% de las tareas a un costo de $4 cada una, revelando que los agentes autónomos aún están lejos de ser viables para los flujos de trabajo de contabilidad y finanzas.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición

WorkArena++ (NeurIPS 2024) evalúa 682 tareas empresariales de composición en tres niveles de dificultad. GPT-4o resuelve el 2,1% de ellas, mientras que los humanos resuelven el 93,9%, aislando exactamente por qué los agentes de IA actuales fallan en el trabajo de conocimiento con objetivos implícitos y por qué esa brecha es importante para la automatización contable autónoma.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.

Todo sobre Enterprise Software

TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real

WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal