ConvFinQA：多轮财务问答以及模型与人类专家之间 21 个百分点的差距

2026年5月15日 · 阅读需 7 分钟

Mike Thrift

Marketing Manager

在花了几个篇幅讨论单轮财务问答——FinQA、FinanceBench、TAT-QA 之后，我想看看当用户提出后续问题时会发生什么。ConvFinQA (Chen 等人, EMNLP 2022) 这篇论文采用了 FinQA 的设置并将其扩展到多轮对话中，其结果揭示了单轮基准测试无法发现的失败模式：那些精通孤立数值推理的模型，一旦问题引用了两轮之前的內容，往往就会崩溃。

论文

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

来自加州大学圣塔芭芭拉分校和摩根大通的 Zhiyu Chen、Shiyang Li、Charese Smiley、Zhiqiang Ma、Sameena Shah 和 William Yang Wang 构建了一个包含 3,892 个多轮对话的数据集，总计覆盖 2,066 页财务报告中的 14,115 个问题。每个对话都基于收益报告——与 FinQA 中使用的标普 500 指数申报文件相同——并且问题环环相扣，因此后续回合可以引用之前的答案。任务格式继承自 FinQA：模型生成一种小型领域特定语言（加、减、乘、除、大于、指数）的程序，然后执行该程序以得出答案。评估使用执行准确率（执行结果是否与标准答案匹配）和程序准确率（生成的程序是否与标准程序匹配）。

该数据集包含两种对话类型。第一类“简单”对话将单个复杂的 FinQA 问题分解为一系列子问题。第二类“混合”对话则将关于同一报告的两个不同 FinQA 问题的分解过程串联起来，迫使模型进行跨维度的推理。超过 60% 的问题依赖于之前的回合，而混合对话中的第二部分问题难度显著增加，因为模型必须跨越不同的财务主题承载推理状态。

核心观点

性能最佳的微调模型（使用 RoBERTa-large 的 FinQANet）：测试集上的执行准确率为 68.90%。人类财务专家达到 89.44%。普通众包人员 (MTurk)：46.90%——这一显著差距证实了该任务需要真正的领域知识。
带有 20 个 few-shot 示例和标准辅助事实的 GPT-3 (text-davinci-002, 175B)：执行准确率为 50.30%——远低于微调后的专家模型，仅略高于普通众包人员。
思维链 (CoT) 提示反而损害了 GPT-3 的表现：CoT 的准确率为 40.63%，而标准程序提示为 45.15%。模型模仿了给定示例的推理格式，而不是将其应用于实际问题。
混合对话显著更难：混合对话的第二部分 FinQANet 得分为 52.38%，而简单对话为 72.37%。跨维度交叉引用是当前模型溃败的地方。
GPT-3 在数值选择问题上表现尤为吃力——例如回答像“前一年呢？”这样的后续问题——准确率仅为 35.32%，而 FinQANet 达到 82.54%。对话式指代消解 (Anaphora resolution) 是其瓶颈所在。

哪些结论经得起推敲，哪些不能

数据集的构建非常严谨，评估方式也很清晰。在执行准确率之外使用程序准确率非常有价值：两个程序可能通过不同（可能是错误的）推理路径产生相同的数值答案，而程序准确率可以捕捉到这一点。将对话锚定在真实的标普 500 指数申报文件中，保证了任务的真实性而非合成性。

尽管如此，对话的多样性在设计上受到了限制。每个对话都是通过分解现有的 FinQA 问题构建的——没有真正的开放式对话，没有澄清环节，也没有用户纠错。真实的会计对话包含所有这些。该数据集是对话推理的一种受控近似，而非自然样本。

对 GPT-3 的分析现在看来有些过时。在 2022 年底发表时，GPT-3 低于 50% 的峰值被视为一个有意义的负面结果。但该论文早于 GPT-4，随后的工作表明，更强大的模型缩小了大部分差距。关于 CoT 提示起到反作用的发现很有趣，但这可能与特定模型有关：CoT 在指令遵循能力更强的模型中往往表现更好。

评估还完全集中在最终答案的正确性上，而忽略了中间推理链的质量。这很重要，因为模型可能通过错误的程序生成数值正确的答案（程序准确率只能部分捕捉到这一点），或者通过在轻微改述下就会失效的脆弱推理生成正确的程序。FinChain (2025) 明确批评了这一点，并提出了一个以透明度为中心的替代方案。对于生产系统来说，了解模型为什么得出正确答案与知道答案本身一样重要。

为什么这对财务 AI 至关重要

一个处理用户查询的 Beancount 智能体很少会收到单个独立的问题。用户会问“我上个月在杂货上花了多少钱？”，然后是“与前一个月相比如何？”，接着是“这是否超出了我的预算？”每个问题都建立在前面的基础之上。ConvFinQA 是目前已发布的、与这种交互模式最接近的基准测试，其数据令人清醒：即使在有标准检索的情况下，2022 年性能最好的模型与人类专家之间仍有约 21 个百分点的差距，且在多维度问题上差距进一步扩大。

混合对话中的特定失败值得关注。当用户在同一个会话中从询问收入切换到询问支出时，模型需要承载数值上下文，同时重置主题焦点。这正是 Beancount 智能体在多轮账目复核会话中必须做的事情。这些回合中 52.38% 的得分是衡量当前方法处理此类场景能力的直接下限。

CoT 的发现也具有实践意义：它表明，在多轮设置中提示模型对财务数据进行推理时，结构化程序生成可能比自由格式的思维链更可靠，至少对于 GPT-3 这一级别的模型来说是这样。能力更强的模型可能不会表现出这种反转——但这是一个需要测试的假设，而不是一个可以直接采纳的预设。

ConvFinQA：多轮财务问答以及模型与人类专家之间 21 个百分点的差距

论文

核心观点

哪些结论经得起推敲，哪些不能

为什么这对财务 AI 至关重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文​

核心观点​

哪些结论经得起推敲，哪些不能​

为什么这对财务 AI 至关重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文

核心观点

哪些结论经得起推敲，哪些不能

为什么这对财务 AI 至关重要

延伸阅读