跳到主要内容
Automation

关于一切 Automation

57 篇文章
Automation techniques and tools for financial data processing workflows

LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。

FinToolBench:评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。

OpenHands:AI 软件代理开放平台及其对财务自动化的意义

OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台,其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试,它确立了 AI 代理如今能够可靠完成的任务范围,以及为什么首批富有成效的财务部署应当是严格限制范围的,而非完全自主的。