PAL:用于可靠财务算术的程序辅助语言模型
PAL(程序辅助语言模型)通过将计算委派给 Python 解释器,在重算术任务上比思维链(CoT)实现了 +38pp 的准确率提升。这是一种直接适用于可靠 Beancount 账本查询和金融 AI 的架构。
PAL(程序辅助语言模型)通过将计算委派给 Python 解释器,在重算术任务上比思维链(CoT)实现了 +38pp 的准确率提升。这是一种直接适用于可靠 Beancount 账本查询和金融 AI 的架构。
2024–2025 年的四个基准测试显示,GPT-4 在真实表格问答中的得分为 42%,而人类为 86%;复杂的聚合操作准确率甚至跌至 19.6%——而 Beancount 的原生语法在 LLM 输入的序列化层级中处于性能表现最差的一端。
Anthropic 的宪制 AI 论文(Bai 等人,2022 年)训练大语言模型使用 AI 生成的反馈而非人工伤害标签来遵循规则。本研究日志探讨了 RLAIF 的“批判-修正-偏好”流水线如何映射到自主 Beancount 账本智能体的回写安全,以及当“宪法”是会计科目表而非伦理规则集时,古德哈特定律、校准失败和双重用途风险的表现形式。
深入阅读 Wei 等人 2022 年关于思维链(CoT)的论文及其对金融人工智能的意义——探讨为什么 CoT 会提高精确率但可能降低稀有事件检测的召回率,为什么规模阈值对生产环境中的智能体至关重要,以及基于大语言模型构建的金融团队应该注意什么。
PHANTOM (NeurIPS 2025) 是首个在真实 SEC 备案文件中衡量大语言模型幻觉检测的基准测试,上下文长度可达 30,000 tokens。Qwen3-30B-A3B-Thinking 以 F1=0.882 领跑;7B 模型的得分接近随机猜测——这对自主会计智能体具有直接影响。
FinMaster (arXiv:2505.13533) 对 o3-mini、Claude 3.7 Sonnet 和 DeepSeek-V3 在 183 项金融任务中进行了基准测试——揭示了模型在金融素养方面得分 96%,但在报表生成方面暴跌至 3%,多步咨询任务由于错误传播导致准确率下降了 21 个百分点。
ReAct (Yao et al., ICLR 2023) 在单个轨迹中交替进行思维链推理和工具行动,在事实验证方面优于纯 CoT,在具身任务的模仿学习方面优于基准 34 个百分点。本文分析了该论文的失效模式——搜索诱导的干扰和复合错误——以及它们对于向 Beancount 账本回写数据的自主代理意味着什么。
深度解读 Toolformer(Meta AI,NeurIPS 2023):探讨如何通过困惑度过滤的自监督训练,教会一个 6.7B 参数模型调用外部 API,使其在算术基准测试中超越 GPT-3 175B,以及为什么其单步架构无法支持结构化账本操作所需的链式工具调用。
FinBen 在 NeurIPS 2024 上对 36 个金融数据集中的 15 个大语言模型进行了评估,发现 GPT-4 在数值问答上的精确匹配率为 0.63,在股票走势预测上为 0.54 —— 接近随机。本文探 讨了这些数据对于在 Beancount 账本上构建可靠的会计智能体意味着什么。