4 篇博文含有标签「Open Source」

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AI 软件代理开放平台及其对财务自动化的意义

OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台，其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试，它确立了 AI 代理如今能够可靠完成的任务范围，以及为什么首批富有成效的财务部署应当是严格限制范围的，而非完全自主的。

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena：包含 812 个任务的基准测试，衡量 Web 智能体真实的能与不能

GPT-4 仅完成了 WebArena 812 个现实网页任务中的 14.41%，而人类达到了 78.24%；主要的失败模式是误判不可行性（false infeasibility）——即保守地拒绝执行——这对于任何操作 Fava 或金融网页 UI 的智能体都有直接影响。

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama：7B 开源模型在表格理解上能否媲美 GPT-4？

TableLlama 在 260 万个表格任务示例上对 Llama 2 (7B) 进行了微调，在列类型标注等结构化任务上击败了 GPT-4（F1 值 94 对 32），但在 WikiTQ 组合推理上落后 33 分——这为 7B 开源模型在当今金融 AI 领域的能力边界提供了一个经过校准的基准。

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent：接口设计如何开启自动化软件工程

SWE-agent (NeurIPS 2024) 引入了代理-计算机接口 (ACI) —— LLM 与软件环境之间专门构建的层 —— 在 SWE-bench 上相比原始 shell 访问提升了 10.7 个百分点，并配合 GPT-4 Turbo 实现了 12.47% 的解决率。接口设计而非模型能力，是自主编码代理的主要瓶颈。

关于一切 Open Source

OpenHands：AI 软件代理开放平台及其对财务自动化的意义

WebArena：包含 812 个任务的基准测试，衡量 Web 智能体真实的能与不能

TableLlama：7B 开源模型在表格理解上能否媲美 GPT-4？

SWE-agent：接口设计如何开启自动化软件工程

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规