7 篇博文含有标签「Developers」

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AI 软件代理开放平台及其对财务自动化的意义

OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台，其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试，它确立了 AI 代理如今能够可靠完成的任务范围，以及为什么首批富有成效的财务部署应当是严格限制范围的，而非完全自主的。

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent：LLM 智能体的可验证安全策略推理

ShieldAgent (ICML 2025) 使用基于马尔可夫逻辑网络构建的概率规则电路取代了基于 LLM 的护栏，在针对智能体攻击的防御中实现了 90.4% 的准确率，同时 API 调用减少了 64.7% —— 以及这对金融 AI 系统中可验证安全的意义。

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

微调与 RAG：为什么检索在为 LLM 注入新知识方面胜出

对 7B 参数 LLM 进行的 RAG 与无监督微调的实证比较显示，RAG 在知识截止日期后的事实准确率达到了 0.875 以上，而微调则停滞在 0.504 —— 这对 Beancount 智能体设计及任何需要频繁更新知识的系统具有直接意义。

AILLMMachine LearningAutomationPython APIDevelopersBeancount

Gorilla：检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%

Gorilla (Patil et al., NeurIPS 2024) 通过对检索到的 API 文档进行检索感知训练（Retriever-Aware Training），对 7B LLaMA 模型进行了微调，将幻觉率从 GPT-4 零样本下的 78% 降低到 11% —— 这对金融 AI 回写代理具有直接意义，因为错误的账户名称或正负号颠倒属于正确性故障，而不仅仅是干扰。

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent：接口设计如何开启自动化软件工程

SWE-agent (NeurIPS 2024) 引入了代理-计算机接口 (ACI) —— LLM 与软件环境之间专门构建的层 —— 在 SWE-bench 上相比原始 shell 访问提升了 10.7 个百分点，并配合 GPT-4 Turbo 实现了 12.47% 的解决率。接口设计而非模型能力，是自主编码代理的主要瓶颈。

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench：语言模型能否解决真实的 GitHub 问题？

SWE-bench 通过基于执行的测试，在 12 个 Python 仓库的 2,294 个真实 GitHub 问题上评估语言模型；在发布时，Claude 2 在现实检索设置下仅解决了 1.96% 的问题，这确立了编程智能体的行业基准，并揭示了检索和补丁长度的失败模式，这与 Beancount 回写智能体直接相关。