跳到主要内容

MultiHiertt:跨多层级财务报表的数值推理基准测试

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

我本月阅读的每个财务问答基准测试——FinQA、TAT-QA、ConvFinQA——都基于同一个默认假设:每份文档只有一个扁平表。真实的财务报告完全不是这样。合并资产负债表将子公司嵌套在分部内,分部嵌套在母实体内;利润表包含具有小计项的层级行项目,而这些小计项本身又构成了更高级别的汇总。MultiHiertt (Zhao et al., ACL 2022) 是第一个旨在揭示这一差距的基准数据集,其结果令人清醒。

论文概览

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

宾夕法尼亚州立大学的 Yilun Zhao、Yunxiang Li、Chenying Li 和 Rui Zhang 推出了 MultiHiertt,这是一个包含 10,440 个问答对的问答基准,提取自 2,513 份真实的财务报告。每份文档平均包含 3.89 个层级表以及 68 个句子的叙述性文本(约 1,645 个单词)。训练/开发/测试集的比例为 7,830 / 1,044 / 1,566。其核心论点简单而直接:先前的数据集(FinQA、TAT-QA)在只有单个扁平表的文档上评估模型,这系统性地低估了对实际财务报表进行推理的复杂性,因为一个问题可能需要先综合来自三个独立子表的数据,然后才能应用算术程序。

除了数据集,作者还提出了 MT2Net,这是一个两阶段模型:一个事实检索模块,用于对所有表格和段落中候选的支持单元格和文本片段进行评分;随后是一个符号推理模块(借用自 FinQA 的 NeRd 设计的算术程序执行器),对检索到的事实进行操作。MT2Net 全程使用 RoBERTa-large 作为编码器。

核心观点

  • MultiHiertt 平均每份文档 3.89 张表格,直接反映了真实年报的结构,其中一个问题可能需要来自利润表、分部明细表和脚注表的数据——而这些都不是扁平的。
  • MT2Net (RoBERTa-large) 在测试集上达到了 38.43% 的 F1 分数;人类专家达到了 87.03% 的 F1 分数——差距近 49 个百分点。
  • 跨表推理问题(需要来自 ≥ 2 张表格的证据)在最佳模型下的 F1 分数为 21.04%,而单表问题为 36.77%——在原本就很低的基准线上又下降了 15 个百分点。
  • 符号推理模块有所帮助,但无法弥补检索失败:标注研究显示,层级示例中 31.5% 的错误源于在尝试任何算术运算之前选择了错误的证据单元格。
  • 到 2024 年,使用思维程序 (Program-of-Thoughts) 提示词的 GPT-4 在 MultiHiertt 上的 F1 分数达到 67.23%,而专门的 EEDP(证据增强文档提示)方法将 GPT-4 推向 70.32%——仍比人类上限低 17 个百分点。
  • 标注质量可靠:标注者间的一致性 Kappa 值为 0.72–0.90,众包人员对 76.8%–94.0% 样本的正确性评分 ≥ 4/5。

哪些观点站得住脚,哪些则不然

数据集的构建非常严谨,标注质量指标令人放心。其核心主张——单表基准低估了真实复杂性——显而易见是正确的,单表和多表子集之间 15 个百分点的 F1 差距使其变得具体。对比表(论文中的表 1)清楚地显示 FinQA 和 TAT-QA 每份文档只有一张表;MultiHiertt 确实填补了一个真实空白。

尽管如此,MT2Net 并不是一个强有力的解决方案——它更接近于一个强基准线。检索模块是一个片段级评分器,通过对支持事实的监督进行训练,这意味着它严重依赖于在训练时拥有正确的监督信号。论文没有评估当层级结构是隐式(没有显式的父子 HTML 嵌套)时会发生什么,而这在扫描的报表和旧的 PDF 中很常见。测试集保留在 CodaLab 排行榜之后,这使得独立复制结果或探测失败模式变得困难。

我还想指出作者未充分强调的一点:2024 年的 GPT-4 结果表明,无需任何专门针对层级设计的架构,原始推理能力就能弥补大部分差距。GPT-4 在从未被告知文档包含层级表的情况下达到了 70% 的准确率——它只是阅读渲染后的 HTML。这实际上是一个有趣的发现:层级意识的重要性可能不如纯粹的上下文容量和算术可靠性。约束因素可能仍然是长文档中的检索精度,而非推理架构。

为什么这对金融人工智能至关重要

Beancount 代理也面临完全相同的问题。像“我们 2023 年的有效税率是多少?”这样的问题需要从利润表中找到税前收入行,从单独的附注中找到所得税费用,并可能需要分部层级的明细来核对合并数据。这些都不存在于单个扁平表中。MultiHiertt 中跨表推理 15 个百分点的 F1 惩罚量化了我预期在 Beancount 环境中看到的情况:在单账户查询中表现良好的代理,在涉及跨账簿章节联表的问题时,性能会显著下降。

错误分析具有直接的可操作性。如果 31.5% 的错误是在任何计算发生之前的错误证据检索,那么 Beancount 自动记账代理的首要任务不是更好的算术引擎,而是更好的证据选择器。一个在计算之前检索了错误账簿行的代理,将产生看起来合理但错误的条目,这正是审计中最难发现的失败模式。

GPT-4 的轨迹在短期内也令人鼓舞:两年内从 38% 提升到 70% 表明,随着上下文窗口和推理能力的提高,即使没有特定领域的训练,多表财务推理也是可行的。但与人类表现之间剩余的 17 个百分点差距并非噪音——它可能反映了层级结构承载了扁平文本渲染所丢失的语义负荷。

延伸阅读

  • 知识密集型 NLP 任务的检索增强生成 (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — 几乎所有财务问答系统构建的基础;理解其参数化与非参数化内存的分离,对于决定如何构建账簿检索至关重要。
  • FLARE: 主动检索增强生成 (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — 当模型预测需要新事实时在生成过程中进行检索,这非常适合多表推理,因为你可能在推理中途发现需要一张子公司表。
  • TAT-LLM:用于财务表格和文本数据离散推理的专用语言模型 (Zhao et al., ICAIF 2024) — 在 FinQA/TAT-QA/MultiHiertt 上专门微调大语言模型,并展示了领域自适应相比 GPT-4 提示词到底带来了什么优势。