跳到主要内容

TAT-QA:针对财务年报推理的混合表格-文本问答基准

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

今天阅读 TAT-QA 是因为它正处于与我们正在构建的内容直接相关的交汇点:那些只能通过同时对表格及其周围文本进行推理才能回答的问题。在 Beancount 中,每个账本分录都存在于特定的上下文中——如果脱离了摘要 (memo)、交易对手描述或解释该行项目存在原因的账户策略,表格中的一行数据就失去了意义。TAT-QA 由新加坡国立大学 NExT++ 实验室的 Zhu 等人于 ACL 2021 发表,这个基准测试迫使 NLP 社区直面这一问题。

论文详解

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng 和 Tat-Seng Chua 介绍了 TAT-QA (Tabular And Textual QA),这是一个包含 16,552 个问题的数据集,涉及从真实财务年报中提取的 2,757 个混合语境。每个语境都将半结构化表格与至少两个配套段落配对——这正是你在 10-K 文件中看到的结构,其中收入表紧挨着管理层对驱动这些数字的因素的讨论。几乎所有问题都需要算术运算:加、减、乘、除、计数、比较、排序以及多步操作组合。

核心贡献有两方面:基准测试本身,以及 TAGOP,一种将任务视为证据标注后进行符号推理的新模型。TAGOP 在拼接的表格单元格和文本片段上使用序列标注器,以识别要收集哪些证据,然后应用一组固定的聚合算子(求和、差值、乘积、比率、计数等)来计算最终答案。没有神经算术——计算过程本身始终委托给符号执行器。

核心观点

  • 证据识别是难点,而非算术。 TAGOP 的错误分析显示,约 55% 的失败归因于标注错误,29% 归因于缺失证据。一旦找到了正确的单元格和文本片段,符号执行器极少出错。这是一个直接信号:对于财务智能体 (finance agents) 来说,检索和证据定位 (grounding) 步骤占主导地位。
  • 纯文本模型立即失效。 BERT-RC 在测试集上的 F1 分数仅为 18.7%。NumNet+ V2 是 TAT-QA 之前最好的数值阅读器,达到了 46.9% 的 F1 分数。纯表格模型 TaPas 基准测试得分为 22.8%。一个只读表格而不读文本,或只读文本而不读表格的模型,在这一领域是不合格的。
  • TAGOP 获得了 58.0% 的 F1 分数(50.1% 的精确匹配),而人类专家获得了 90.8% 的 F1 分数(84.1% 的 EM)。 发表时 32.8 个点的 F1 差距是令人震惊的。这意味着即使是 2021 年最好的系统,能回答的问题也不到受过训练的分析师所能处理问题的三分之二。
  • 到 2024 年底,排行榜呈现出不同的局面。 排名第一的系统 TAT-LLM (70B) 达到了 88.4% 的 F1 分数——仅比人类低 2.4 个点。TAT-LLM (7B) 达到了 82.88% 的 F1,而 GPT-4 在零样本 (zero-shot) 下达到了 79.71% 的 F1。差距大幅缩小,这主要通过 LLM 大规模微调实现。
  • 专业化微调仍优于原生 GPT-4。 在 TAT-QA 上,TAT-LLM 7B (74.56% EM) 的表现优于 GPT-4 零样本 (71.92% EM),尽管其参数量仅为后者的几分之一。TAT-LLM 使用的“提取器→推理器→执行器”分步流水线反映了 TAGOP 的直觉,但用提示词引导的 LLM 取代了符号标注器。

哪些观点经受住了考验,哪些没有

该基准测试采用的是真实数据、真实问题和真实财务报告。这种可信度是它最大的资产。发表时 32 个点的人机差距是真实存在的,而且该数据集足够难,以至于五年后顶级系统仍未完全弥补这一差距。

令我担忧的是单表假设。每个 TAT-QA 语境只包含一个表格。真实的年报包含数十个表格,通常在部门、子公司和时间跨度之间存在层级关系。一个能完美回答 TAT-QA 问题的模型,面对主导实际会计工作的跨表合并时,仍然显得力不从心。MMQA 论文 (ICLR 2025) 正好指出了这一点——像 TAT-QA 这样的单表基准测试低估了从业者面临的多表复杂性。

答案类型的分布在实践中也没有看起来那么难。大约 42% 的 TAT-QA 答案是单一片段——即不需要计算的直接提取。具有挑战性的多步操作组合只占少数。一个模型如果提取全部正确但算术全部错误,仍能获得 30–40% 左右的分数。该基准测试没有根据难度加权,这削弱了来自真正困难推理案例的信号。

最后,人类基准 (90.8% F1) 是由能接触到文档但可能并非注册会计师 (CPA) 级别的标注员计算出来的。对于 Beancount 规模的账本推理——智能体必须理解会计准则而不仅仅是算术——90.8% 可能高估了“正确”的上限。

为什么这对财务 AI 至关重要

TAT-QA 是目前与 Beancount 智能体日常面对的任务最接近的公开基准:结构化的分录数据(表格)紧挨着非结构化的叙述(摘要、描述、政策说明)。TAGOP 的结果证实了我对构建账本工具的预期——定位比计算更难。标记正确的单元格才是问题所在;对它们求和是微不足道的。

排行榜的轨迹对产品开发来说是令人振奋的:一个在该领域微调过的 7B 参数模型优于 GPT-4 零样本,这表明特定于 Beancount 的微调模型可以处理检索+算术工作负载,而无需为每个账本查询调用尖端模型 API。延迟、成本和数据隐私都会得到改善,如果我们可以本地运行一个小巧的专业模型。

单表限制是 Bean Labs 需要弥补的直接差距。Beancount 账本实际上是多表文档——账户过账、预算线、对账单——而能够捕获相关表之间这种多跳结构的基准测试尚未完全出现。MultiHiertt (ACL 2022) 是最接近的;它是我的阅读清单上的下一篇论文。

下一步阅读建议

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) —— 直接解决了 TAT-QA 的单表限制;问题需要对同一财务文档中的多个层级表格进行推理,更接近合并账单的情况。
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) —— 将 FinQA 扩展到多轮对话;模型必须在问题轮次之间追踪不断变化的数值语境,这对应于 Beancount 智能体处理有关账本会话的后续查询的方式。
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) —— 同一 NExT++ 团队的直接后续研究;展示了通过“提取器→推理器→执行器”流水线微调的 LLaMA-2 如何在 TAT-QA 和 FinQA 上击败 GPT-4 零样本。