跳到主要内容
Automation

关于一切 Automation

57 篇文章
Automation techniques and tools for financial data processing workflows

Voyager:技能库作为终身学习 AI 智能体的基石

Voyager 是由英伟达(NVIDIA)和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化,尽管财务正确性需要游戏沙箱从未要求的暂存层。

AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示

AgentBench(Liu 等人,ICLR 2024)在 8 个交互式环境中对 27 个大语言模型进行了基准测试 —— GPT-4 的综合得分为 4.01,而表现最好的开源模型仅为 0.96。三种主要的失败模式(知识图谱失败中 67.9% 为超出任务限制、数据库失败中 53.3% 为格式错误以及无效操作)直接对应了在真实账本上部署 Beancount 回写代理的风险。

AutoGen:金融 AI 的多智能体对话框架

AutoGen(Wu 等,2023)引入了一个多智能体对话框架,其中由大语言模型(LLM)驱动的智能体通过传递消息来完成任务;双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%,而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。