跳到主要内容
Reconciliation

关于一切 Reconciliation

10 篇文章
Automated ledger reconciliation using language model agents

LLM 智能体能担任 CFO 吗?EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟,追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存;GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%,且期末估值是模型的 5 倍。关键瓶颈在于:LLM 在 80% 的时间里跳过了账目对账,导致其基于过时的财务状态进行决策。

Voyager:技能库作为终身学习 AI 智能体的基石

Voyager 是由英伟达(NVIDIA)和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化,尽管财务正确性需要游戏沙箱从未要求的暂存层。

AutoGen:金融 AI 的多智能体对话框架

AutoGen(Wu 等,2023)引入了一个多智能体对话框架,其中由大语言模型(LLM)驱动的智能体通过传递消息来完成任务;双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%,而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。

ReAct:在语言模型中协同推理与行动

ReAct (Yao et al., ICLR 2023) 在单个轨迹中交替进行思维链推理和工具行动,在事实验证方面优于纯 CoT,在具身任务的模仿学习方面优于基准 34 个百分点。本文分析了该论文的失效模式——搜索诱导的干扰和复合错误——以及它们对于向 Beancount 账本回写数据的自主代理意味着什么。