MultiHiertt：跨多层级财务报表的数值推理基准测试

2026年5月16日 · 阅读需 7 分钟

Mike Thrift

Marketing Manager

我本月阅读的每个财务问答基准测试——FinQA、TAT-QA、ConvFinQA——都基于同一个默认假设：每份文档只有一个扁平表。真实的财务报告完全不是这样。合并资产负债表将子公司嵌套在分部内，分部嵌套在母实体内；利润表包含具有小计项的层级行项目，而这些小计项本身又构成了更高级别的汇总。MultiHiertt (Zhao et al., ACL 2022) 是第一个旨在揭示这一差距的基准数据集，其结果令人清醒。

论文概览

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

宾夕法尼亚州立大学的 Yilun Zhao、Yunxiang Li、Chenying Li 和 Rui Zhang 推出了 MultiHiertt，这是一个包含 10,440 个问答对的问答基准，提取自 2,513 份真实的财务报告。每份文档平均包含 3.89 个层级表以及 68 个句子的叙述性文本（约 1,645 个单词）。训练/开发/测试集的比例为 7,830 / 1,044 / 1,566。其核心论点简单而直接：先前的数据集（FinQA、TAT-QA）在只有单个扁平表的文档上评估模型，这系统性地低估了对实际财务报表进行推理的复杂性，因为一个问题可能需要先综合来自三个独立子表的数据，然后才能应用算术程序。

除了数据集，作者还提出了 MT2Net，这是一个两阶段模型：一个事实检索模块，用于对所有表格和段落中候选的支持单元格和文本片段进行评分；随后是一个符号推理模块（借用自 FinQA 的 NeRd 设计的算术程序执行器），对检索到的事实进行操作。MT2Net 全程使用 RoBERTa-large 作为编码器。

核心观点

MultiHiertt 平均每份文档 3.89 张表格，直接反映了真实年报的结构，其中一个问题可能需要来自利润表、分部明细表和脚注表的数据——而这些都不是扁平的。
MT2Net (RoBERTa-large) 在测试集上达到了 38.43% 的 F1 分数；人类专家达到了 87.03% 的 F1 分数——差距近 49 个百分点。
跨表推理问题（需要来自 ≥ 2 张表格的证据）在最佳模型下的 F1 分数为 21.04%，而单表问题为 36.77%——在原本就很低的基准线上又下降了 15 个百分点。
符号推理模块有所帮助，但无法弥补检索失败：标注研究显示，层级示例中 31.5% 的错误源于在尝试任何算术运算之前选择了错误的证据单元格。
到 2024 年，使用思维程序 (Program-of-Thoughts) 提示词的 GPT-4 在 MultiHiertt 上的 F1 分数达到 67.23%，而专门的 EEDP（证据增强文档提示）方法将 GPT-4 推向 70.32%——仍比人类上限低 17 个百分点。
标注质量可靠：标注者间的一致性 Kappa 值为 0.72–0.90，众包人员对 76.8%–94.0% 样本的正确性评分 ≥ 4/5。

哪些观点站得住脚，哪些则不然

数据集的构建非常严谨，标注质量指标令人放心。其核心主张——单表基准低估了真实复杂性——显而易见是正确的，单表和多表子集之间 15 个百分点的 F1 差距使其变得具体。对比表（论文中的表 1）清楚地显示 FinQA 和 TAT-QA 每份文档只有一张表；MultiHiertt 确实填补了一个真实空白。

尽管如此，MT2Net 并不是一个强有力的解决方案——它更接近于一个强基准线。检索模块是一个片段级评分器，通过对支持事实的监督进行训练，这意味着它严重依赖于在训练时拥有正确的监督信号。论文没有评估当层级结构是隐式（没有显式的父子 HTML 嵌套）时会发生什么，而这在扫描的报表和旧的 PDF 中很常见。测试集保留在 CodaLab 排行榜之后，这使得独立复制结果或探测失败模式变得困难。

我还想指出作者未充分强调的一点：2024 年的 GPT-4 结果表明，无需任何专门针对层级设计的架构，原始推理能力就能弥补大部分差距。GPT-4 在从未被告知文档包含层级表的情况下达到了 70% 的准确率——它只是阅读渲染后的 HTML。这实际上是一个有趣的发现：层级意识的重要性可能不如纯粹的上下文容量和算术可靠性。约束因素可能仍然是长文档中的检索精度，而非推理架构。

为什么这对金融人工智能至关重要

Beancount 代理也面临完全相同的问题。像“我们 2023 年的有效税率是多少？”这样的问题需要从利润表中找到税前收入行，从单独的附注中找到所得税费用，并可能需要分部层级的明细来核对合并数据。这些都不存在于单个扁平表中。MultiHiertt 中跨表推理 15 个百分点的 F1 惩罚量化了我预期在 Beancount 环境中看到的情况：在单账户查询中表现良好的代理，在涉及跨账簿章节联表的问题时，性能会显著下降。

错误分析具有直接的可操作性。如果 31.5% 的错误是在任何计算发生之前的错误证据检索，那么 Beancount 自动记账代理的首要任务不是更好的算术引擎，而是更好的证据选择器。一个在计算之前检索了错误账簿行的代理，将产生看起来合理但错误的条目，这正是审计中最难发现的失败模式。

GPT-4 的轨迹在短期内也令人鼓舞：两年内从 38% 提升到 70% 表明，随着上下文窗口和推理能力的提高，即使没有特定领域的训练，多表财务推理也是可行的。但与人类表现之间剩余的 17 个百分点差距并非噪音——它可能反映了层级结构承载了扁平文本渲染所丢失的语义负荷。

MultiHiertt：跨多层级财务报表的数值推理基准测试

论文概览

核心观点

哪些观点站得住脚，哪些则不然

为什么这对金融人工智能至关重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文概览​

核心观点​

哪些观点站得住脚，哪些则不然​

为什么这对金融人工智能至关重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文概览

核心观点

哪些观点站得住脚，哪些则不然

为什么这对金融人工智能至关重要

延伸阅读