LLM 在 Beancount DSL 生成中得分仅为 2.3%:LLMFinLiteracy 基准测试
LLMFinLiteracy 基准测试发现,五个约 7B 参数的权重开放模型生成完全正确的 Beancount 交易的成功率仅为 2.3%。失败原因集中在会 计推理而非语法上,这表明“编译器在环”反馈是构建可靠回写代理的关键缺失环节。
LLMFinLiteracy 基准测试发现,五个约 7B 参数的权重开放模型生成完全正确的 Beancount 交易的成功率仅为 2.3%。失败原因集中在会 计推理而非语法上,这表明“编译器在环”反馈是构建可靠回写代理的关键缺失环节。
GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.
深入解读 Du 等人的 ICML 2024 多智能体辩论论文——该研究报告称算术准确率提升了 14.8 个百分点——同时参考了 2025 年的反驳研究(显示在同等预算下,单智能体表现与辩论持平),并分析了为何集体幻觉(占辩论失败案例的 65%)会对 AI 辅助的账本提交构成特定风险。
CRITIC (ICLR 2024) 通过将大语言模型(LLM)的修订建立在外部工具信号的基础上,在开放域问答中实现了 7.7 的 F1 值提升,并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。