跳到主要内容

ConvFinQA:多轮财务问答以及模型与人类专家之间 21 个百分点的差距

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

在花了几个篇幅讨论单轮财务问答——FinQA、FinanceBench、TAT-QA 之后,我想看看当用户提出后续问题时会发生什么。ConvFinQA (Chen 等人, EMNLP 2022) 这篇论文采用了 FinQA 的设置并将其扩展到多轮对话中,其结果揭示了单轮基准测试无法发现的失败模式:那些精通孤立数值推理的模型,一旦问题引用了两轮之前的內容,往往就会崩溃。

论文

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

来自加州大学圣塔芭芭拉分校和摩根大通的 Zhiyu Chen、Shiyang Li、Charese Smiley、Zhiqiang Ma、Sameena Shah 和 William Yang Wang 构建了一个包含 3,892 个多轮对话的数据集,总计覆盖 2,066 页财务报告中的 14,115 个问题。每个对话都基于收益报告——与 FinQA 中使用的标普 500 指数申报文件相同——并且问题环环相扣,因此后续回合可以引用之前的答案。任务格式继承自 FinQA:模型生成一种小型领域特定语言(加、减、乘、除、大于、指数)的程序,然后执行该程序以得出答案。评估使用执行准确率(执行结果是否与标准答案匹配)和程序准确率(生成的程序是否与标准程序匹配)。

该数据集包含两种对话类型。第一类“简单”对话将单个复杂的 FinQA 问题分解为一系列子问题。第二类“混合”对话则将关于同一报告的两个不同 FinQA 问题的分解过程串联起来,迫使模型进行跨维度的推理。超过 60% 的问题依赖于之前的回合,而混合对话中的第二部分问题难度显著增加,因为模型必须跨越不同的财务主题承载推理状态。

核心观点

  • 性能最佳的微调模型(使用 RoBERTa-large 的 FinQANet):测试集上的执行准确率为 68.90%。人类财务专家达到 89.44%。普通众包人员 (MTurk):46.90%——这一显著差距证实了该任务需要真正的领域知识。
  • 带有 20 个 few-shot 示例和标准辅助事实的 GPT-3 (text-davinci-002, 175B):执行准确率为 50.30%——远低于微调后的专家模型,仅略高于普通众包人员。
  • 思维链 (CoT) 提示反而损害了 GPT-3 的表现:CoT 的准确率为 40.63%,而标准程序提示为 45.15%。模型模仿了给定示例的推理格式,而不是将其应用于实际问题。
  • 混合对话显著更难:混合对话的第二部分 FinQANet 得分为 52.38%,而简单对话为 72.37%。跨维度交叉引用是当前模型溃败的地方。
  • GPT-3 在数值选择问题上表现尤为吃力——例如回答像“前一年呢?”这样的后续问题——准确率仅为 35.32%,而 FinQANet 达到 82.54%。对话式指代消解 (Anaphora resolution) 是其瓶颈所在。

哪些结论经得起推敲,哪些不能

数据集的构建非常严谨,评估方式也很清晰。在执行准确率之外使用程序准确率非常有价值:两个程序可能通过不同(可能是错误的)推理路径产生相同的数值答案,而程序准确率可以捕捉到这一点。将对话锚定在真实的标普 500 指数申报文件中,保证了任务的真实性而非合成性。

尽管如此,对话的多样性在设计上受到了限制。每个对话都是通过分解现有的 FinQA 问题构建的——没有真正的开放式对话,没有澄清环节,也没有用户纠错。真实的会计对话包含所有这些。该数据集是对话推理的一种受控近似,而非自然样本。

对 GPT-3 的分析现在看来有些过时。在 2022 年底发表时,GPT-3 低于 50% 的峰值被视为一个有意义的负面结果。但该论文早于 GPT-4,随后的工作表明,更强大的模型缩小了大部分差距。关于 CoT 提示起到反作用的发现很有趣,但这可能与特定模型有关:CoT 在指令遵循能力更强的模型中往往表现更好。

评估还完全集中在最终答案的正确性上,而忽略了中间推理链的质量。这很重要,因为模型可能通过错误的程序生成数值正确的答案(程序准确率只能部分捕捉到这一点),或者通过在轻微改述下就会失效的脆弱推理生成正确的程序。FinChain (2025) 明确批评了这一点,并提出了一个以透明度为中心的替代方案。对于生产系统来说,了解模型为什么得出正确答案与知道答案本身一样重要。

为什么这对财务 AI 至关重要

一个处理用户查询的 Beancount 智能体很少会收到单个独立的问题。用户会问“我上个月在杂货上花了多少钱?”,然后是“与前一个月相比如何?”,接着是“这是否超出了我的预算?”每个问题都建立在前面的基础之上。ConvFinQA 是目前已发布的、与这种交互模式最接近的基准测试,其数据令人清醒:即使在有标准检索的情况下,2022 年性能最好的模型与人类专家之间仍有约 21 个百分点的差距,且在多维度问题上差距进一步扩大。

混合对话中的特定失败值得关注。当用户在同一个会话中从询问收入切换到询问支出时,模型需要承载数值上下文,同时重置主题焦点。这正是 Beancount 智能体在多轮账目复核会话中必须做的事情。这些回合中 52.38% 的得分是衡量当前方法处理此类场景能力的直接下限。

CoT 的发现也具有实践意义:它表明,在多轮设置中提示模型对财务数据进行推理时,结构化程序生成可能比自由格式的思维链更可靠,至少对于 GPT-3 这一级别的模型来说是这样。能力更强的模型可能不会表现出这种反转——但这是一个需要测试的假设,而不是一个可以直接采纳的预设。

延伸阅读

  • ConvFinQA APOLLO 后续研究 (arXiv:2212.07249) —— 通过数值感知的负采样和基于一致性的强化学习在 ConvFinQA 上实现了最先进水平;值得阅读以了解在原始论文之后是如何缩小差距的。
  • 思维程序 (Program of Thoughts) 提示 (arXiv:2211.12737, 2022) —— 将算术运算交给 Python 解释器而非 DSL;据报道,在财务问答任务中比 CoT 提高了约 12%,在 ConvFinQA 上接近最先进水平;直接将 CodeAct 的理念与财务推理联系起来。
  • FLARE:主动检索增强生成 (arXiv:2305.06983, EMNLP 2023) —— 在生成过程中按需检索,而不是在开始时检索一次;与模型所需查找的内容随轮次变化的对话式设置直接相关。