跳到主要内容
Enterprise Software

关于一切 Enterprise Software

3 篇文章
Enterprise software automation, web agents, and knowledge work task research

WorkArena++:人类与 AI 智能体在复合型企业任务表现上 93% 的差距

WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%,而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因,以及这一差距对自主账务自动化的重大影响。