ConvFinQA:多轮财务问答以及模型与人类专家之间 21 个百分点的差距
ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话,研究发现性能最佳的微调模型实现了 68.9% 的执行准确率,而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中,准确率降至 52.4%。
ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话,研究发现性能最佳的微调模型实现了 68.9% 的执行准确率,而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中,准确率降至 52.4%。
TAT-QA 是一个包含 16,552 个问题的基准测试,涵盖了财务报表中混合表格与文本的语境。该研究证明证据定位(而非算术)是财务 AI 的核心瓶颈;到 2024 年,微调后的 7B 参数量 LLM 已达到 83% 的 F1 分数,基本缩小了与 91% 人类上限的差距。
FinanceBench 针对来自真实 SEC 备案文件的 10,231 个问题评估了 16 种 AI 配置;共享向量存储 RAG 的正确率仅为 19%,即使是拥有“金标准”段落的 GPT-4-Turbo,准确率也仅达到 85% —— 这表明数值推理而非检索才是企业财务 AI 的核心瓶颈。
自一致性通过对 N 条采样推理路径进行多数投票,取代了贪婪的思维链解码——在零微调的情况下将 GPT-3 在 GSM8K 上的准确率提高了 17.9 个百分点——并直接适用于单次大模型解码不可靠的多步金融计算。
PAL(程序辅助语言模型)通过将计算委派给 Python 解释器,在重算术任务上比思维链(CoT)实现了 +38pp 的准确率提升。这是一种直接适用于可靠 Beancount 账本查询和金融 AI 的架构。
2024–2025 年的四个基准测试显示,GPT-4 在真实表格问答中的得分为 42%,而人类为 86%;复杂的聚合操作准确率甚至跌至 19.6%——而 Beancount 的原生语法在 LLM 输入的序列化层级中处于性能表现最差的一端。
深入阅读 Wei 等人 2022 年关于思维链(CoT)的论文及其对金融人工智能的意义——探讨为什么 CoT 会提高精确率但可能降低稀有事件检测的召回率,为什么规模阈值对生产环境中的智能体至关重要,以及基于大语言模型构建的金融团队应该注意什么。
PHANTOM (NeurIPS 2025) 是首个在真实 SEC 备案文件中衡量大语言模型幻觉检测的基准测试,上下文长度可达 30,000 tokens。Qwen3-30B-A3B-Thinking 以 F1=0.882 领跑;7B 模型的得分接近随机猜测——这对自主会计智能体具有直接影响。
深度解读 Toolformer(Meta AI,NeurIPS 2023):探讨如何通过困惑度过滤的自监督训练,教会一个 6.7B 参数模型调用外部 API,使其在算术基准测试中超越 GPT-3 175B,以及为什么其单步架构无法支持结构化账本操作所需的链式工具调用。
FinBen 在 NeurIPS 2024 上对 36 个金融数据集中的 15 个大语言模型进行了评估,发现 GPT-4 在数值问答上的精确匹配率为 0.63,在股票走势预测上为 0.54 —— 接近随机。本文探讨了这些数据对于在 Beancount 账本上构建可靠的会计智能体意味着什么。