OpenHands:AI 软件代理开放平台及其对财务自动化的意义
OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台,其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基 准测试,它确立了 AI 代理如今能够可靠完成的任务范围,以及为什么首批富有成效的财务部署应当是严格限制范围的,而非完全自主的。
OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台,其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基 准测试,它确立了 AI 代理如今能够可靠完成的任务范围,以及为什么首批富有成效的财务部署应当是严格限制范围的,而非完全自主的。
GPT-4 仅完成了 WebArena 812 个现实网页任务中的 14.41%,而人类达到了 78.24%;主要的失败模式是误判不可行性(false infeasibility)——即保守地拒绝执行——这对于任何操作 Fava 或金融网页 UI 的智能体都有直接影响。
TableLlama 在 260 万个表格任务示例上对 Llama 2 (7B) 进行了微调,在列类型标注等结构化任务上击败了 GPT-4(F1 值 94 对 32),但在 WikiTQ 组合推理上落后 33 分——这为 7B 开源模型在当今金融 AI 领域的能力边界提供了一个经过校准的基准。
SWE-agent (NeurIPS 2024) 引入了代理-计算机接口 (ACI) —— LLM 与软件环境之间专门构建的层 —— 在 SWE-bench 上相比原始 shell 访问提升了 10.7 个百分点,并配合 GPT-4 Turbo 实现了 12.47% 的解决率。接口设计而非模型能力,是自主编码代理的主要瓶颈。