跳到主要内容

Enterprise Software

关于一切 Enterprise Software

3 篇文章

Enterprise software automation, web agents, and knowledge work task research

返回所有帖子查看所有标签

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany：在真实企业任务中评估大语言模型智能体

TheAgentCompany 在包含 GitLab、OwnCloud 和 RocketChat 的模拟内网环境中测试了 175 个真实的职场任务。表现最好的模型（Gemini-2.5-Pro）仅完成了 30% 的任务，且每项任务成本高达 4 美元，这表明自主智能体在会计和财务工作流中仍远未达到可用水平。

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++：人类与 AI 智能体在复合型企业任务表现上 93% 的差距

WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%，而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因，以及这一差距对自主账务自动化的重大影响。

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena：大语言模型（LLM）网络智能体在真实企业知识工作中的表现

WorkArena 在 33 个真实的 ServiceNow 任务上对 LLM 网络智能体进行了基准测试——GPT-4o 总体得分达到 42.7%，但在列表过滤任务中得分为 0%，揭示了表单填写与结构化 UI 交互之间存在的巨大障碍，这直接对应了 Beancount 账本自动化的挑战。

开启 Beancount.io 之旅

使用我们的开源复式记账系统掌控你的财务。今天就开始你的账本。

免费开始使用查看定价

入门指南

功能特性

社区

法律合规

© 2019 - 2026 Beancount.io

在 App Store 下载

在 Google Play 获取

秉承透明理念 • 版本控制 • AI 驱动